RNAseq需要標準化的原因(長度和深度)

2021-10-20 09:30:46 字數 942 閱讀 8833

需要標準化的原因:

樣本內:相對定量而不是絕對定量:僅表示在35次抽樣中,b基因抽樣到了20次,(而不是其表達了20次。也不能說其會比genea表達量高,因為基因的長度不同,所以落到基因上的reads數量也不同)

樣本件:不同樣本的測序深度也是不同的,測序深度更深的會得到更多的reads。

故,需要標準化。對基因長度和測序深度的不同進行標準化。

pkm 流程

gene長度標準化(真實轉錄序列的長度,不考慮可變剪接情況)

測序深度標準化(除以每個樣品總的reads數目,能夠比對到參考序列上的reads數目):

rpkm(reads per kilobase per million.)就是上面的對1 million個reads進行的操作

kilobase 基因長度單位

million 測序深度的單位

fpkm(fragments per kilobase per million).建庫測序是以片段為單位。單端測序兩者等價。而雙端測序應該用fpkm是更為通用的表示方式

tpm:

長度標準化、與fpkm同。

測序深度的標準化,(不是如fpkm的除以總reads樹)而是按照長度標準化之後的樣本求和。除以求和的結果。tpm是相等的

gene的表達量到底代表是什麼意思。

絕對定量:乙個細胞中,一定mol的rna種有多少轉錄本

但是建庫測序時並不知道用於建庫測序時候提取了多少個細胞或者是總共有多少條轉錄本。所以只能進行相對定量。

相對定量:某乙個基因的所有轉錄本所佔的比例。

根據公式:

image

tpm:總的轉錄本的豐度,更符合對相對表達量的定義。表達豐度求和。(reads數目/基因的長度=表達豐富度)

看了許多的文章都在強調rpkm/fpkm的不合理性跟tpm的相對合理性,但為什麼現在大多數的相對計數都在用fpkm/rpkm,而不用tpm呢,因為後續的軟體不支援

資料的標準化和標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...

資料的標準化和標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...

資料的標準化

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...