【WGCNA】DEG解析じゃ満足できない？RでWGCNA解析 -Part2-ネットワーク構築

2020-08-19
2023-02-09
Bioinformatics, R language, WGCNA

R language

前回のPart1ではrawデータのダウンロードから正規化を行い、サンプルと遺伝子フィルタリングまでを行いました。

【WGCNA】DEG解析じゃ満足できない？RでWGCNA解析 -Part1-前処理

Weighted Gene Coexpression Network Analysis (WGCNA)は遺伝子発現量の相関を利用して、互いによく似た発現変動をする遺伝子同士のクラスターを発見する手法です！ WGCNAは単純にクラスター[…]

今回はいよいよメインのWGCNAによるネットワーク構築をしていきます！

このPartのコードは以下のチュートリアルを参考にしています。

Tutorial for the WGCNA package for R: I. Network analysis of liver expression data in female mice 2.b Step-by-step network construction and module detection

1 WGCNAのネットワーク構築の流れ
2 Soft Thresholdの選択
- 2.1 Soft Thresholdの決定
3 遺伝子間の非類似度の計算
4 階層的クラスタリング
5 参考

Sponsored Links

WGCNAのネットワーク構築の流れ

WGCNAによるネットワーク構築の流れは以下です。

Soft Thresholdの選択
Scale Free Topologyの確認
階層的クラスタリングによるモジュール検出

最初は単語一つ一つが何を意味しているのかを捉えるのが難しいと思いますが、適宜説明していきますので今はそういうものがあるんだくらいで読み進めてください！

まず必要なライブラリーと前回作成した前処理済みの発現データ、Traitデータをロードします。

library(limma)
library(gplots)
library(tidyverse)
library(WGCNA)

lnames <- load("../Output/001_NormalizeRawData/SLE_GSE138458-01-dataInput.RData")
lnames

WGCNAでは遺伝子の発現プロファイルが互いにどれくらい似ているのか？を指標にして遺伝子同士をつなぎ合わせていきネットワークを構成します。（遺伝子を頂点として、似ている遺伝子同士は辺でつないだネットワーク）

その発現プロファイルの類似度にはその遺伝子同士の相関を用います。

ここで問題になるのがどれくらい相関が強ければその遺伝子の間に辺を持たせるべきなのかという基準です。

シンプルな考え方だとある値以上の相関係数（例えば0.8以上）があればその2つの遺伝子はネットワーク上でつながっているいるとするというものがあります。（Hard thresholdingといいます）

$$
\begin{eqnarray}
a_{i,j}=\left\{ \begin{array}{ll}
1 & (s_{ij}\geq0.8) \\
0 & (otherwise) \
\end{array} \right.
\end{eqnarray}
$$

しかしこの基準だと相関係数が0.80だとリンクを持っていて、0.79だとリンクを持っていないとすることになります。相関係数で0.01の違いをこれほどドラスティックにしてしまってよいのでしょうか？（実際はこのUnweighted Networkもよく使われますが）

この基準では明らかに情報をロスしてしまっています。また、共発現ネットワークにおいて繋がりの強度を連続的に表現できるもののほうが、生物学的に自然なネットワークを反映できているとも考えられます。

そこで遺伝子間のつながりを連続値で表現するために用いられるのがsoft thresholdです！

上記の議論はBMC Bioinformatics, 2008を参考にしています

リンク

Soft Thresholdの選択

Soft Thresholdって何？

WGCNAでは遺伝子間のつながりを以下のように計算します。

$$a_{i,j}=s_{i,j}^\beta$$

このように遺伝子間のつながりが連続値の重みをもつものをWeighted Networkと呼び、上述のような遺伝子間のつながりを0 or 1で表現するUnweighted Networkと対比されます。

Soft Thresholdとは$a_{i,j}=s_{i,j}^\beta$の$\beta$のことを指します。

なんのためにSoft Thresholdを使うかと言うと、弱いリンクをさらに弱くすることで強いリンクを際立たせるために使います！

例えば遺伝子1と2が相関係数0.8で遺伝子1と3が相関係数0.2だったとして、$Soft Threshold=5$を使ったとすると遺伝子間のリンク$a_{1,2}$ と$a_{1,3}$はそれぞれ

$$a_{1,2}=0.8^5=0.32$$

$$a_{1,3}=0.2^5=0.00032$$

となり$a_{1,2}$ のリンクは$a_{1,3}$のリンクの1000倍も強いことになり、もとの値より差が際立っています。

Soft Thresholdとは$a_{i,j}=s_{i,j}^\beta$の$\beta$のこと、弱いリンクをさらに弱くすることで強いリンクを際立たせるために使う！

WGCNAパッケージではpickSoftThreshold関数で最適なsoft thresholdを探索できます。

また、上述のHard thresholdingを行いたい場合はpickHardThreshold関数を用意してくれています。

どんなSoft Thresholdが最適なの？

結論から言うと、「ネットワークがScale Free Topologyを持つことができるSoft Thresholdの中で最小のもの」です。

Scale Free Topologyってなんぞやって話ですよね(笑)

本当にざっくり説明するとScale Freeなネットワークとは「一部のノード（頂点のこと：今回だと遺伝子）にリンクが集中しているネットワーク」のことです。

現実の事例をあげるとインターネットでの各サイトの繋がり方はまさにScale Freeなネットワークで、GoogleやAmazonなど一部は莫大なリンクを持っていますが、個人のブログなどの大部分のサイトは少数のリンクしか持っていません。

transcription networkやprotein interaction networkなど生物学的なネットワークもScale Free性を持っているとされています(Journal of Cell Science, 2005)のでWGCNAではこれを再現するようにネットワークを構成したいというわけです！

Scale free なネットワークの定義についてもう少し厳密に話すと次数（リンクの数のこと）$k$を持つノードの割合が$k^{-\gamma}$に比例するようなネットワークのことを言います。式で書くと以下です。

$$P(k)\sim k^{-\gamma}$$

$P(k)$がネットワーク中のすべてのノードの中で$k$本のリンクを持つものの割合です。その割合が$k$が大きくなるほどに指数関数的に減少していくような分布を示すネットワークのことです。

つまりScale Freeなネットワークかどうかは次数$k$のヒストグラムを両対数グラフで描画したとき分布が$-\gamma$に比例して減少しているかどうかを確認すればいいことになります。

Soft Thresholdを大きくすると基本的にはScale Free Topologyを持つネットワークを得られるのですが、あまりに大きすぎると生物学的に真に関連のある遺伝子同士のつながりを見逃してしまうかもしれないので、「ネットワークがScale Free Topologyを持つことができるSoft Thresholdの中で最小のもの」がベストだと考えられます。

これを以下で確認していきます。

ネットワークがScale Free Topologyを持つことができるSoft Thresholdの中で最小のものを見つける！

Scale free natworkについてはwikipediaを参考にしています。

リンク

Sponsored Links

Soft Thresholdの決定

どうやって最適なSoft Thresholdを探すの？

WGCNAパッケージのpickSoftThreshold関数で最適なSoft Thresholdを探します！

powers = c(c(1:10), seq(from = 12, to=30, by=2))
sft = pickSoftThreshold(datExpr, powerVector = powers, networkType = "signed", verbose = 5)

pickSoftThreshold関数のアウトプットのsftの中身は上のようになっています。

plot(sft$fitIndices[,1], -sign(sft$fitIndices[,3])*sft$fitIndices[,2],
     xlab="Soft Threshold (power)",ylab="Scale Free Topology Model Fit,signed R^2",type="n",
     main = paste("Scale independence"))
text(sft$fitIndices[,1], -sign(sft$fitIndices[,3])*sft$fitIndices[,2],
     labels=powers,cex=0.9,col="red")
abline(h=0.90,col="red")

このプロットってどんな意味？

このプロットは各Soft ThresholdでのネットワークのScale Free性を表しています！

横軸はSoft Thresholdで縦軸は次数の分布の回帰直線の$R^2$値です！縦軸は「次数の分布の両対数が直線で近似できるか？」を指標としてScale Free性を確認しようとしています！

縦軸についてもう少し詳しく話すと、各Soft Thresholdで遺伝子間のつながりの強度を計算した際の以下のようなプロット（横軸がネットワーク中のノードの次数、縦軸がその次数を持つノードの割合の散布図を両対数取ったもの）の$R^2$値です。このプロットの描画方法は後述の遺伝子間の非類似度の計算で出てきます。

上で　”Scale Freeなネットワークかどうかは次数$k$のヒストグラムを両対数グラフで描画したとき分布が$-\gamma$に比例して減少しているかどうかを確認すればいいことになります”　と書きましたが、それがまさにこのプロットになります。

このプロットで高い次数を持つノードの数が指数関数的に減少している（両対数なのでグラフの中では線形に減少している）ことを回帰直線を引いてその$R^2$値で確認しているわけです。

上のように$R^2$値で0.85とある程度線形に高次数のノードが減少していればそのネットワークはScale Free性を持っていると考えられます。

さて、以下のプロットに話を戻します。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2020-08-16-14.52.10-1024x625.png

WGCNAパッケージの作者らは$R^2$値で0.9をScale Free ネットワークの一つの基準として提案しています。上のプロットの赤い直線がそれです。

今回のデータで最初はこの基準を満たすSoft Threshold 22を選択してネットワークを構築してみましたが、ほとんどの遺伝子がどのモジュールにも割り当てられないという結果となってしまいました。

そこである程度$R^2$値 0.9の基準に近く、値の上昇が飽和し始めているSoft Threshold 10を用いて再びネットワーク構築を行ったところよい結果が得られたため今回はSoft Threshold 10を採用することにしました。

Soft Thresholdごとのネットワークの平均次数も確認しておきます。

plot(sft$fitIndices[,1], sft$fitIndices[,5],
     xlab="Soft Threshold (power)",ylab="Mean Connectivity", type="n",
     main = paste("Mean connectivity"))
text(sft$fitIndices[,1], sft$fitIndices[,5], labels=powers, cex=cex1,col="red")

平均次数はSoft Threshold 6程度まで減少し、Soft Threshold 10でほぼ一定になるようです。

最適なSoft ThresholdはpickSoftThreshold関数を使って見つける！

ネットワークのScale Free性は「次数分布の両対数が直線で近似できるか？」を指標として確認する！

遺伝子間の非類似度の計算

さて、Soft Thresholdも決まったのでこれを用いて遺伝子間の”非”類似度を計算していきます。

まずAdjacency Matrixを計算し、さらにノイズなどの影響を小さくするためにAdjacency MatrixをTopological Overlap Matrix（TOM）に変換します。

このTOMはあとで詳しく説明しますが、ざっくり言うと「ネットワークの中で2つのノードがどれくらい似ているのか？」の指標です。値は０〜１の範囲で、大きいほど2つのノードが似ていることを示します。

WGCNAでは遺伝子間の”非”類似度を用いて階層的クラスタリングを行うため遺伝子の”類似度”の指標であるTOMを”非類似度”の指標であるdissimilarity TOMに変換します。これはTopological Overlapを指標にして、似ている遺伝子同士を近くにクラスタリングするためです。

softPower = 10

adjacency = adjacency(datExpr, power = softPower, type="signed")
TOM = TOMsimilarity(adjacency,TOMType = "signed")
dissTOM = 1-TOM

Sponsored Links

Scale Free性の確認

選択したsoft threshold 10を用いて非類似度の計算ができました。ここで作成したネットワークがスケールフリー性を持っているかどうかを確認しておきましょう！

どうやってScale Freeかどうか確認するの？

次数のヒストグラムとscaleFreePlot関数で確認します！

これらは上でも述べたようにScale Free性を「次数分布の両対数が直線で近似できるか？」を指標として確認するためのものです！

まずネットワーク中のノードの次数の分布をヒストグラムで確認してみます。

k=as.vector(apply(adjacency, 2, sum, na.rm=T))
hist(k)

次数$k$が増えるほど指数関数的に減少していそうですね。

今度はWGCNAパッケージのscaleFreePlot関数で次数$k$が$P(k)\sim k^{-\gamma}$の分布になっているかを確認してみます！

scaleFreePlot(k, main="Check scale free topology\n")

$R^2$値が0.85で回帰直線の傾きが$-1.7$なのでおおよそ$P(k)\sim k^{-\1.7}$の分布になっていて、ある程度Scale Free性があるネットワークが得られたと考えても良さそうです。

ネットワークがScale Freeかどうかは、次数のヒストグラムとscaleFreePlot関数で確認！

TOMについて

TOMってどんな指標なの？

Topological Overlap Matrix（TOM）ですが、具体的に何を意味しているかと言うと、ネットワーク中の2つのノードを比較して、「リンクしている先がどれくらい重複しているか？」です。読んで字のごとくで、ノードのトポロジー（繋がり方）がどれくらいオーバーラップ（重複）しているのかということです。

ノード$i$とノード$j$についてのTOMの計算式は以下です。(WGCNAパッケージTOMsimilarityFromExpr関数ヘルプ参照)

$$TOM_{i,j}=\frac{a_{i,j}+\sum_{u}^n a_{i,u}a_{u,j}}{min(k_i,k_j)+1-a_{i,j}}$$

落ち着いてみれば数式の解釈も難しくはないです。理解を簡単にするためにノード間のリンクに重み考えない（つながってたら１, つながってなかったら０）Unweighted Networkで考えてみます。

まず分母は$min(k_i,k_j)$の部分で$i$と$j$で次数kの小さい方をとってきます。次に$i$と$j$の間にリンクがあれば（$a_{i,j}=1$)0を、$i$と$j$の間にリンクがなければ（$a_{i,j}=1$)1を足します。

最後の$+1-a_{i,j}$は$i$と$j$の間のリンクの有るとき$min(k_i,k_j)$の値が１大きくなってしまうのを調整するためのものなのであまり気にする必要はありません。

次に分子を見てみます。$\sum_{u}^n a_{i,u}a_{u,j}$はノード$u$に対して$i$も$j$も両方がリンクを持つときに+1され、どちらかが$u$にリンクを持たないときは+0されます。つまり共通するリンク先の数を計算しています。これに$i$と$j$同士のリンクの有無を加えています。

まとめると (重複しているリンク先の数) / (重複するリンクの理論上最大値) を計算してることがわかると思います。

上でも述べたように文字通りノードのトポロジー（繋がり方）がどれくらいオーバーラップ（重複）しているかを表していますね！

Unweighted Networkでなくリンクに重みをもたせたWighted Networkでも同様に考えられます！

TOMは「リンクしている先がどれくらい重複しているか？」の指標

signed unsignedについて

TOMsimilarity関数の最も大事な引数はTOMTypeです。 “signed”, “unsigned”などの選択肢があります。”unsigned”はネットワークのリンクの重みの記号（プラスかマイナスか）を考慮しないという意味です。つまり遺伝子の発現が正相関しようが逆相関しようが関係なくリンクには正の値を持たせます。逆に”signed”は正相関と逆相関を区別して、遺伝子同士が逆相関するならその遺伝子間のリンクはマイナスの重みをもたせます。

これは非常に重要な選択肢で得られる結果がまるで違うものになるので慎重に検討しましょう。

また、WGCNA FAQで議論されていますが、一般的にはSignedネットワークのほうが好ましいとWGCNAパッケージの作成者によって言及されています。しかし、今回用いたadjacency()とTOMsimilarity()のデフォルトはUnsignedです。Signedネットワークを構築したいときには今回のようにadjacency(datExpr, type=”signed”) TOMsimilarity(adjacency, TOMType=”signed”)というように引数で指定してあげてください！

TOMTypeはネットワーク構築で最も重要な引数！ “signed”, “unsigned”でデータに適したものを慎重に選ぼう！

階層的クラスタリング

最後に上で作成した非類似度を用いて階層的クラスタリングを行います。

geneTree = hclust(as.dist(dissTOM), method = "average")
plot(geneTree, xlab="", sub="", main = "Gene clustering on TOM-based dissimilarity",
labels = FALSE, hang = 0.04)

上のようなデンドログラムを作ることができました！

ここまでの結果を保存しておきます！

save(adjacency, dissTOM, geneTree, 
file = '../Output/002_NetworkConstruction/SLE_GSE138458-02-networkConstruction.RData')

長くなってしまったので今回の記事はここまでにして次回、このデンドログラムを用いてモジュール(遺伝子のクラスター)検出をやっていきます！

【WGCNA】DEG解析じゃ満足できない？RでWGCNA解析 -Part3-モジュール検出

Part1では正規化などのデータの前処理、Part2ではネットワークの構築とデンドログラムの作成を行ってきました！ [sitecard subtitle=関連記事 url=https://shiokoji11235.com[…]

参考

リンク

Sponsored Links

SKJブログはTwitterでも役に立つ情報を発信しています！

フォローする

コメント（13件）

【R】DEG解析じゃ満足できない？WGCNAによるトランスクリプトーム解析 -Part1-前処理│ＳＫＪブログより:

2020-08-23 00:52

[…] 【R】DEG解析じゃ満足できない？WGCNAによるトランスクリプトーム解析 -Part2… […]

返信
【R】DEG解析じゃ満足できない？WGCNAによるトランスクリプトーム解析 -Part3-モジュール検出│ＳＫＪブログより:

2020-09-07 22:59

[…] 【WGCNA】DEG解析じゃ満足できない？RでWGCNA解析 -Part2-ネットワーク構築 […]

返信
【WGCNA】DEG解析じゃ満足できない？RでWGCNA解析 -Part3-モジュール検出│ＳＫＪブログより:

2020-09-07 23:01

[…] R […]

返信
名無しより:

2020-12-13 14:55

WGCNAについて、日本語で書かれた記事がほとんどなく、とても助かりました。
１つ質問がございます。
結合するノードの数を表す次数kはどのように求められているのでしょうか？
各ノードの近さを調べる手前の段階で、すでに結合しているノードが分かっているということに違和感を覚えております。
完全に素人であるため、何かとんちんかんな質問になっていたら申し訳ありません。
詳しく解説していただけると助かります。

返信
- 塩こうじより:
  
  2020-12-19 20:05
  
  コメント大変ありがとうございます！返信が遅くなってしまって申し訳ありません！
  「結合するノードの数を表す次数kはどのように求められているのか？」というご質問ですが、これは隣接行列（本文ではAdjacency Matrixと記載）が決まった時点で決定できます！
  というのもこの隣接行列というのがネットワークそのものだからです！
  グラフ理論の話になるのですが、ネットワーク（ノードとエッジの繋がり方）を数学的に表現したいときに隣接行列は使われます！このサイトの説明がとてもわかりやすいと思います！
  このサイトの説明にあるように隣接行列は各行，列がそれぞれ頂点に対応し、「行が対応する頂点」と「列が対応する頂点」がエッジで繋がっていれば１、つながっていなければ０が入る行列です！各ノードの次数ｋはこの隣接行列を行ごとに総和を計算することで簡単に得られます！
  例えば３つのノード（A, B, C）のネットワークの隣接行列が以下であるとすると
  ((0, 1, 1）
  (1, 0, 0)
  (1, 0, １))
  1行目２列の値が１であることからAとBはつながっていて、同様に1行目３列の値が１であることからAとCはつながっていることがわかります。
  ここでノードAの次数ｋは１行目（0, 1, 1）の総和である２です！
  同様にノードBの次数は(1, 0, 0)の総和で１、ノードCの次数は(1, 0, １)の総和で２と計算できます！
  
  WGCNAだと重み付きネットワークを隣接行列として表現して次数の計算を行うので隣接行列の中に入る値は(0, 1)だけでなく0.8とか0.5などの連続値になることだけ気をつければ、遺伝子ネットワークについても上と同様に考えることができます！
  各ノードの近さ（TOM）を調べるのはこの隣接行列を使って行うので、すでに結合しているノードは完全にわかっている（ネットワークの構造が完全に得られている）状態で計算するということになります！
  なにか他にご不明点などありましたらぜひコメントをいただけましたら幸いです！
  
  返信
skonishi より:

2021-09-21 20:33

TOMに変換する際にTOMtype=”signed”にするならば、
TOM = TOMsimilarity(adjacency, TOMType = “signed”)

隣接行列を作る際もtype=”signed”をつけるべきではないのでしょうか?
adjacency = adjacency(datExpr, power = softPower, type=”signed”)

返信
- 塩こうじより:
  
  2021-09-23 16:20
  
  ご指摘いただきありがとうございます!該当部分について修正しました!
  
  返信
pd より:

2022-08-04 23:46

非常に分かりやすい解説をありがとうございます。参考になりました。
TOMtype=”signed”にするならば、
pickSoftThresholdもnetworkType = “signed”と指定すべきでないでしょうか？

返信
- 塩こうじより:
  
  2023-01-22 00:43
  
  ご指摘いただき誠にありがとうございます。該当部分について修正いたしました。
  
  返信
Taro Ooiso より:

2022-09-23 12:57

もう運営者さんはコメントを読まれてないかもしれませんが、
本文では”signed”となってますが、scaleFreePlotと階層的クラスタリングは”unsigned” のTOMで書かれているようです。ご確認をお願いします。間違っていればすみません。

返信
- 塩こうじより:
  
  2023-01-22 00:26
  
  コメントありがとうございます。確認が遅くなりまして申し訳ございません。おっしゃる通りで可視化はunsinedのものを使用してしまっているようです。後々修正いたしますのでお待ちいただけましたら幸いです。ご指摘いただきまして誠にありがとうございました。
  
  返信
新井和菜より:

2023-02-04 10:53

何度も読ませていただきながら、どうにか解析を進めている者です。非常に参考になる記事をありがとうございます。

そもそものところになるのですが、「遺伝子同士の相関」とは何を指しているのでしょうか。正規化したリードカウントの数字が近ければ相関があり、離れているほど相関がない、と考えるのでよろしいでしょうか。（たとえばカウントが、遺伝子A=7、遺伝子B=7、遺伝子C=10の場合、AとBは相関があるがAとCはそれに比べて相関がない…？）

お返事いただけますと幸いです。よろしくお願いいたします。

返信
- 塩こうじより:
  
  2023-02-04 17:10
  
  コメント大変ありがとうございます！励みになります！
  
  遺伝子同士の相関についてですが、簡単に説明すると、
  「遺伝子の発現量の変化の仕方」がどれくらい似ているのかを指すのが相関です！
  相関については正規化したリードカウントの数字が似ているかどうかは関係ないです！
  
  以下のような例を考えてみます！
  遺伝子Aの発現量がサンプル1では10, サンプル2では20、　サンプル３では30だった。
  遺伝子Bの発現量がサンプル1では100, サンプル2では200、　サンプル３では300だった。
  遺伝子Cの発現量がサンプル1では10, サンプル2では5、　サンプル3では10だった。
  
  この例だと遺伝子Aと遺伝子Bは「発現変動の仕方」については非常によく似ていると言えます！
  （遺伝子AとBは共通してサンプル2はサンプル1の2倍でサンプル3はサンプル1の3倍になっています）
  しかし、遺伝子Aと遺伝子Cでは「発現変動の仕方」については全く似ていません！
  （遺伝子Cのサンプル2はサンプル1の1/2倍、サンプル3はサンプル1の1倍です。）
  遺伝子Aと遺伝子Cはリードカウントの値の大きさについては似ていますが、全く相関していません！
  
  実際に相関係数を計算してみるとよくわかると思います！
  遺伝子Aと遺伝子Bの相関係数は1で完璧な相関を示し、
  逆に遺伝子Aと遺伝子Cの相関係数0で全く相関していないことを示します。
  
  この例のように互いに相関する遺伝子同士のクラスターを作成するというのは、「発現変動の仕方」が似ている遺伝子同士を見つけるという作業になります！
  
  相関についてはこちらのページが詳しいのでご参照ください！(https://bellcurve.jp/statistics/course/20089.html)
  
  他にご質問がありましたらコメントいただけましたら幸いです！
  
  返信