edger包是進行rna-seq資料分析非常常用的乙個r包。該包需要輸入每個基因關於每個樣本的reads數的資料,每行對應乙個基因,每一列對應乙個樣本。建議使用htseq-count進行統計,輸出檔案即可直接使用。如果需要算rpkm,需要自己統計基因長度資訊。
第一步:構建 dgelist類變數
edger的大多數操作都是對 dgelist型別變數進行,所以第一步必須構建該型別變數,使用函式:dgelist
命令為:
y 這裡的x就是每個行乙個基因每列乙個樣本的reads數表達矩陣。
當然還需要乙個分組資訊的資料,需要自己建立,例如:
group
y 第二步:基因篩選
keep 1) >= 2#至少在兩個樣本裡cpm大於1
y 第三步:標準化
edger的標準化思想主要針對的是不同樣本在建庫時效應。這一點與rpkm不同,因為edger認為不同的基因對於所有樣本的影響是相同的,所以不必考慮。因此為了消除這種建庫時的效應,edger會更推薦你使用他的calcnormfactors函式,算出來的值叫做trimmed
mean of m-values (tmm) ,命令為:
y y$samples
group lib.size norm.factors
sample1 1 10880519 1.17
sample2 1 9314747 0.86
sample3 1 11959792 1.32
sample4 2 7460595 0.91
sample5 2 6714958 0.83
第四步:聚類與熱圖
在表達量分析中經常會遇到根據基因表達量來對基因進行聚類分析的過程,edger建議使用logcpm這個指標來進行聚類和畫熱圖,命令是:
logcpm
第五步:差異表達分析
edger的差異表達分析有兩種方式,簡單的一種是直接進行配對檢驗,命令是:
et toptags(et)
另一種演算法比較複雜,其思想是:首先表達值需要服從某個分布,然後與這個分布不相符的基因才是差異表達基因。具體做法如下:
design
fit
lrt
包r語言 R語言入門之R包的安裝
install.packages metafor 即可順利安裝該r包。install.packages biocmanager library biocmanager install edger 3 接下來便是安裝源自github 的r包了,它的步驟和安裝源自bioconductor的r包類似,需要...
r語言安裝r包
cran,bioconductor還有github。bioconductor一般都是生物資訊方面的r包。github是 的託管平台,很多軟體,多種語言的程式包也都在這裡發布。install.packages dyplr 注意 更改映象 options repos c cran options bio...
R開發 常用R語言包
r與python差異比較大的乙個地方就是,python的機器學習演算法集中程度比較高,比如sklearn,就整合了很多的演算法,而r語言更多時候需要乙個包乙個包去了解,比較費時費力,對於python轉過來的朋友非常不友好,抽空整理了工作中常用的r包如下 常用檢驗函式 基本上分布中常見的都羅列了 常用...