第521天
大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~
就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好~
這裡有豆豆和花花的學習歷程,從新手到高階,生信路上有你有我!
豆豆寫於2020.1.22-23我們經常做轉錄組分析,於是最熟悉的是:差異分析 + 功能注釋。經常設定乙個logfc閾值,然後找變化倍數大於或者小於這個值的基因,作為上調或者下調。而這個閾值的設定,經常沒有乙個標準,主觀性很大,但有時也會新增一點統計知識進去,比如利用自從上次寫過豆豆在um的第一天就開始了適應過程,到現在也適應差不多了,一切步入正軌,趕在過年之前發一波
我們經常聽說:gene set enrichment analysis、gsea、基因集富集分析,這三種實際上都是描述的一種方法,就是尋找基因的功能大概是什麼樣子的。
這一次,就來認識一下gsea吧
mean + 2sd
來計算這個閾值。
最後會利用這些差異基因,來進行go或者kegg的注釋,找到它們主要在哪些通路富集,從而提供一些思路。
那麼以上?的思路就屬於:過表徵分析(ora, over-representation analysis),屬於初步探索。
當然其中也會有一些問題,例如:
gsea就是屬於第二代方法:fcs(functional class scoring)的範疇
基本上能看到類似的這種圖就說明是用gsea做的:
畢竟之前和它大的交道少,於是需要大體了解一下(但不是說去鑽研演算法)從原理開始
其實排好序之後,我們可以手動去基因列表l的兩側去查,看看有沒有我們想要的基因,但往往乙個基因列表動輒上萬,因此這個方法雖然可以做,但軟體和統計知識並不允許我們去這麼幹。
於是,事先將已知的通路(包含相關的基因資訊)儲存起來,用的時候直接去驗證它們就好了,而這個就是基因集富集分析的基因集。比如要看某個go term在我們排序好的基因列表中富集在頭部還是尾部,就能反證我們的基因集中treat組上調或者下調基因是否屬於這個通路
gsea方法的原假設是:某個通路的全部基因在我們排序後的基因列表中隨機分布,如果我們看到它們」意外「出現在基因列表的某一端(從圖上看是在某一側形成乙個峰),那麼就可以計算顯著性來看看富集程度如何。如果富集結果顯著,那麼就拒絕原假設,認為這個通路的基因在我們的基因列表中富集,並且看到富集分數
名詞解釋
參考資料
方法一:r語言
首先也是做乙個差異分析,可以用limma、edger或者deseq2
然後需要乙個基因列表,按照log2fc從大到小排序
# 得到差異分析結果:deg_mtx
genelist # 如果是ensemble id,並且如果還帶著版本號,需要去除版本號,再進行基因id轉換,得到entrez id
names(genelist) pattern = '\\.',simplify = t)[,1]
genelist_tr fromtype = "ensembl",
totype = c("entrezid","symbol"),
orgdb = org.hs.eg.db)
new_list logfc = as.numeric(genelist))
new_list "ensembl")
genelist names(genelist) # 最後從大到小排序,得到乙個字串
genelist t)
再利用clusterprofiler進行gsea分析
方法二:gsea軟體
搞定輸入
軟體需要三個輸入檔案,分別是:
之前技能樹寫過:調整引數其中結合晶元資料介紹了:批量執行gsea,命令列版本;製作自己的gene set檔案給gsea軟體
參考:檢視結果
程式一般會在主目錄下新建乙個目錄:gsea_home
,然後output
裡面按照日期進行排序
裡面的檔案會非常多,但有乙個總覽index.html
:
就會看到:
並且它們都可以直接點開看結果,或者將excel讀取到r語言中進行處理
如果要把結果讀取到r中
結果檔案也是存放在了index.html
同級目錄中,就是乙個excel**
初學生信,很榮幸帶你邁出第一步
?生信星球?~乙個不拽術語、通俗易懂的生信知識平台
gsea富集分析結果怎麼看 單基因聯合自噬分析
identification of molecular correlations of rbm8a with autophagy in alzheimer s disease 二.文章思路 三.結果解讀 1.識別ad中差異表達的基因 作者探索rbm8a在ad中的作用使用的是gse33000資料集,樣...
基因富集分析
diff gene.entrez檔案,是通過各種差異基因軟體找出來的差異基因的entrez id號列表,每乙個id號一行,幾百個差異基因就幾百行 上述 為差異基因的kegg pathway富集分析結果 id kegg 資料庫中通路唯一的編號資訊。description gene ontology功能...
如何優雅展示GO富集結果
不知道分析過轉錄組的小夥伴有沒有碰到過這樣的問題 轉錄組後續做go富集的時候,發現最前面的那些term其實對應的基因都差不多,如果選前幾個畫圖,可能說明的只是一件事。我一般是手動選,在足夠顯著的前提下,選擇幾個不一樣的term來畫圖 當然還得符合預期 今天就發現了乙個網頁工具,可以對 語義 相似的g...