差異分析的步驟:
1)比對;2)
read count
計算;3
) read count
的歸一化; 4
)差異表達分析;
背景知識:
1)比對:
普通比對:
bwa,
soap
開大gap
比對:tophat
(bowtie2);2
) read count(
多重比對的問題):
丟棄平均分配
利用unique region
估計並重新分配
表達量計算的本質
目標基因表達量相對
參照系表達量
的數值。
參照的本質:( 1
)假設樣本間參照的訊號值應該是相同的;( 2
)將樣本間參照的觀測值校正到同一水平;( 3
)從參照的數值,校正並推算出其他觀測量的值。
例如:qpcr:
目標基因表達量(迴圈數)相對看家基因表達量(迴圈數);
rna-seq:
目標基因的表達量(測序
reads
數),相對樣本
rna總表達量(總測序量的
reads
數),這是最常用的標準。
歸一化的原因及處理原則:
1)基因長度
2)測序量
3)樣本特異性(例如,細胞
mrna
總量,汙染等)前兩者使用普通的
rpkm
演算法就可以良好解決,關鍵是第三個問題,涉及到不同的演算法處理。
rna-seq
歸一化演算法的意義:
基因表達量歸一化
:在高通量測序過程中,樣品間在
資料總量、基因長度、基因數目、高表達基因分布甚至同乙個基因的不同轉錄本分布
上存在差別。因此不能直接比較表達量,必須將資料進行歸一化處理。
rna-seq
差異表達分析的一般原則
1)不同樣品的基因總表達量相似
2)上調差異表達與下調差異表達整體數量相似(上下調差異平衡)
3)在兩組樣品中不受處理效應影響的基因, 表達量應該是相近的(差異不顯著)。
4)看家基因可作為表達量評價依據( 待定)
不同的演算法比較:
以什麼數值來衡量表達量:
rpkm
、fpkm
、tpm
以什麼作為參照標準:
tmm(
edger
軟體)、
de seq矯正
本質:1)以
reads
數為計算單位;
2)對基因長度(基因間的比較)和總資料量(樣本間的比較)做矯正;
rpkm的弊端
1)由於可變剪下,同一基因有效轉錄區域長度未必相同(這個一般情況下可以不考慮,了解一下:
cufflinks
軟體考慮了這個問題)優化策略:外顯子或轉錄本水平的表達量分析。
2) 使用
reads
數計算基因表達量有輕微誤差(這裡暫不展開,主要了解一下定義)優化策略:
fpkm
或 tpm3)
mrna
的總量未必相等。
rpkm
的優化:
fpkm
f = fragment
,即測序片段數量。這些片段都
是從完整的
cdna
打碎而來的;
本質:以文庫中的片段數量為計算單位在
paired-end
測序中,乙個
fragment
就是兩條
pe reads
構成的片段。由於是
pe比對,理論上比
se比對更可靠。
rpkm
的優化:
tpmt = transcripts
本質:以轉錄本的條數為計算單位。使用轉錄本的條數(或者說:轉錄本的測序深度),代替
reads
數,在一定條件下定量更準,尤其樣本間表達基因總數差異很大的時候(例如,對照樣本有
1萬個基因表達,另外處理組僅有
4000
個基因表達)。
mrna
總量未必相等
mrna
總量不等
——細胞本身不同
例如:活躍組織
vs休眠的組織;癌細胞
vs正常細胞
mrna
總量不等
——汙染
例如:核醣體汙染外源
rna汙染
解決方法
——不同演算法比較
其中歸一化演算法介紹:1)
total count(tc
):總reads
數矯正2
)upper quartile(uq
):上四分之一分位數(總
reads)矯正
3)median
(med
);中位數(總
reads
數)矯正4)
quantile (q)
:基因晶元軟體
limma
中的校正演算法;5)
rpkm
:總reads
數,但引入了基因長度
6)幾何平均數:
deseq
軟體中的演算法;7)
tmm:
edger
軟體中的演算法;8)
rpkm邏輯1
:不同位置數值的穩定性不同
四分位數
quartile:
將資料按從小到大排列,並分成四等分,這樣得到
3個分割點,第乙個分割點叫做
lowerquartile
,第二個叫
media
,第三個叫
upper quartile
很顯然,極大值具有極大不穩定性,而且可能會顯著影
響總體之和(假設,我們之中有個馬雲,我們的總收入
有什麼變化?)
所以,upper quartile
和median
的數值,比總表達量之
和更加穩定,更適合作為參照。邏輯2
:表達量居中的基因的表達量值,其數值應該是相似的。
deseq
與edger
,預設情況下都使用這一的邏輯校正。(
deseq and edger bioconductor packages
)
deseq:
異常高表達的基因,會顯著影響細胞中的總
mrna
的數量。類似的,如果樣本中受到不同程度的外源
rna,如病毒、真菌等的汙染,也會顯著影響樣本總
mrna
數,導致
rpmk
值的誤差。
對於這樣的問題,
deseq
嘗試對資料進行矯正(矯正因子),使表達量處於中間位置的基因表達量應該是基本相同的(即使用表達量處於中間的基因表達量值作為參照,而減少高表達基因的作用)。
deseq:
校正因子
=樣本表達中位數
/所有樣本表達量中位數:
回答了乙個關鍵的問題:
deseq
不同差異比較組間,計算得到的表達量值不同。因
為樣本在變化,「所有樣本表達量的中位數」也在變動。
rpkm
:總表達量為參照
deseq
:中位數為參照
tmm(edger):與
deseq
類似,在去除高表達基因和差異最大的基因後,
tmm也是要找到乙個加權係數,使剩餘的基因在被矯正後差異倍數可能小。
tmm的加權係數是基於兩兩樣本比較後推算獲得的(也就是兩組樣本的比較,將產生與這次比較相關的加權係數)。然後將所有基因除以這個加權係數,從而保證
大部分表達量居中的基因
表達量最相似。
不同rna-seq
表達量歸一化演算法的區別
deseq
類的校正演算法:
理論上更加穩定;
但不同批次的比較會得到不同的表達量值,不利於進行多處理組
/批次資料的統一分析(例如,趨勢分析、共表達分析)
校正會掩蓋一些問題(例如:樣本汙染)
rpkm
類的演算法:
容易受異常高表達基因、外源汙染等的干擾;
但也更容易從結果的異常中,發現潛在問題;
得到的表達量值是恆定的,多處理組
/批次的資料可以合併分析。折中的方法:使用
rpkm
類的演算法,但需要人工檢查資料是否
異常。備註:
deseq
軟體也可以關閉校正的功能。
實際經驗總結
總之:從多方面考慮,
rpkm
類演算法,如果合理使用,依然是最優的。具體問題具體分析:在遇到問題的時候,找到問題的**,從而給出解決方案(沒有完美的流程,只有最佳解決方案)
螢光定量PCR 基因相對表達量計算方法
螢光定量pcr之後計算目的基因的相對表達量一般採用2 ct的方法。我們還是假設對照組和處理組各有三個生物學重複 即對照組3個cdna樣品cdna1,cdna2,cdna3,處理組3個cdna樣品cdna4,cdna5,cdna6 三個技術重複 即每個cdna的每個基因點三個孔 1.跑完程式後,先看一...
Numpy中向量與標量計算
加減乘除冪運算 import numpy as np a np.array 1,2,3 b np.array 3,2,1 print a 10 對應位置依次相加 print a 2 print 1,2,3 2 print a b print a b print a b print a b print...
ArcPy批量計算Mean Center的兩個例項
很久沒用arcpy了,碰了好幾次壁,把這次做的貼上來,以備下次可以跳過這些簡單的問題 1 import arcpy 2 arcpy.env.workspace c users qian documents arcgis default.gdb 3 a sichuan1990 sichuan2000 ...