wgcna是目前非常火熱的一項研究內容,其全稱為weighted correlation network analysis, 直譯就是加權基因相關性網路分析。通過這項分析,可以鑑定共表達的基因集合,這樣的集合稱之為modules, 而且可以將modules與表型資料進行關聯分析,挖掘潛在的mark 基因。
這個高大上的分析內容的第一步就是構建基因之間的共表達網路,共表達是常用的分析相關性的一種策略,直接通過線性相關函式來計算相關性,比如pearson, spearman等相關係數,每兩個基因之間可以計算出乙個相關係數,那麼如何構建出相關性網路呢?
在基因的相關性網路中,每個節點代表乙個基因,節點之間的連線用來表示兩個基因的相關性。在傳統的相關性分析中,通常會給定乙個閾值,比如相關係數的絕對值必須大於0.9,才認為這兩個基因間存在相關性。對應的公式如下
s表示兩個基因間的相關係數的絕對值,公式如下
注意是絕對值,因為協同變化的基因可以是正相關,也可以是負相關。給定乙個閾值,如果兩個基因之間的相關係數大於該閾值,則認為這兩個基因存在相關性,在網路圖中就用一條線將這兩個基因連線起來;如果小於該閾值,則不存在相關性。
通過閾值篩選,將兩個基因間的相關係數轉換為0和1,0代表沒有相關性,1代表有相關性,所有基因之間的關係可以用以下矩陣來表示
genea
geneb
genec
genea01
1geneb10
1genec11
0這樣的矩陣稱之為鄰接矩陣,通過這個矩陣可以直觀的表示乙個網路,數值為1的點對應的兩個基因在網路圖中有連線。
用上述方法構建出的網路,稱之為非加權的共表達網路,對於兩個基因而言,其相關性是有強弱的,是乙個在0到1 分為內波動的值,採用上述一刀切的方法,缺失了原本的變化趨勢,所以非加權的共表達網路丟失了很多資訊,wgcna的開發團隊提出了加權基因共表達網路的概念,怎麼加權呢,公式如下
在計算鄰接矩陣中兩個基因的值時,將原本的相關係數的絕對值做乙個乘方運算。乘方運算強化了相關係數的變化層次,比如原本係數相差,乘方運算後其差距會被拉大,這樣使得資料可以區分的更開,有利於後續聚類識別modules, 同時乘方運算也保證了相關性關係的不變性,公式如下
取log之後,二者是乙個線性關係,採用乘方運算來計算基因間的鄰接矩陣,用該矩陣構建共表達網路時,兩個基因之間的連線不在是有無的關係,而有對應的數字的加權了,這個就是加權基因共表達網路。
在構建加權基因共表達網路時有幾點注意事項,最關鍵的一點是樣本數目,當樣本太少時,簡單線性相關係數並不能有效識別基因間的相關性,會出現很多基因間的相關係數完全一致的情況,這樣的資料就很難進一步挖掘,官方推薦至少20個樣本,另外就是基因表達譜的資料的預處理,在計算相關性時,表達量數值很低的基因容易造成干擾,會發現它與非常多的基因都存在相關性,所以可以指定乙個閾值,將表達量很低的基因去除。
差異表達基因變化倍數 差異表達基因
1.什麼是差異表達基因 在不同組織中表達發生明顯變化的基因 是導致細胞狀態發生變化的關鍵基因 是表達譜分析的主要物件 2.尋找差異表達基因的兩種方法 倍數變化閥值 一般設定為2倍 具體方法 找出所有基因的表達變化率 按照表達變化率排序 上調兩倍或者下調兩倍算作差異表達基因 適合條件 實驗重複數極少 ...
基因表達譜
基因表達 指細胞在生命過程中,把儲存在dna順序中遺傳資訊經過轉錄和翻譯,轉變成具有生物活性的蛋白質分子。生物體內的各種功能蛋白質和酶都是同相應的結構基因編碼的。差別基因表達 指細胞分化過程中,奢侈基因按一定順序表達,表達的基因數約佔基因總數的5 10 也就是說,某些特定奢侈基因表達的結果生成一種型...
基因表示式程式設計gep 基因表示式程式設計GEP 前言
第一次接觸gep gene expression programming,基因表示式程式設計 演算法是五年前公司做過的乙個供熱優化控制專案,一接觸就被它簡潔精妙的設計思想所吸引。gep由傳統遺傳演算法進化而來,其融合了ga genetic algorithms,遺傳演算法 和gp genetic p...