gsea富集分析結果怎麼看 豆豆學習GSEA

2021-10-12 05:11:16 字數 3177 閱讀 2800

第521天

大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~

就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好~

這裡有豆豆和花花的學習歷程,從新手到高階,生信路上有你有我!

豆豆寫於2020.1.22-23

自從上次寫過豆豆在um的第一天就開始了適應過程,到現在也適應差不多了,一切步入正軌,趕在過年之前發一波

我們經常聽說:gene set enrichment analysis、gsea、基因集富集分析,這三種實際上都是描述的一種方法,就是尋找基因的功能大概是什麼樣子的。

這一次,就來認識一下gsea吧

我們經常做轉錄組分析,於是最熟悉的是:差異分析 + 功能注釋。經常設定乙個logfc閾值,然後找變化倍數大於或者小於這個值的基因,作為上調或者下調。而這個閾值的設定,經常沒有乙個標準,主觀性很大,但有時也會新增一點統計知識進去,比如利用mean + 2sd來計算這個閾值。

最後會利用這些差異基因,來進行go或者kegg的注釋,找到它們主要在哪些通路富集,從而提供一些思路。

那麼以上?的思路就屬於:過表徵分析(ora, over-representation analysis),屬於初步探索。

當然其中也會有一些問題,例如:

gsea就是屬於第二代方法:fcs(functional class scoring)的範疇

基本上能看到類似的這種圖就說明是用gsea做的:

畢竟之前和它大的交道少,於是需要大體了解一下(但不是說去鑽研演算法)

從原理開始

其實排好序之後,我們可以手動去基因列表l的兩側去查,看看有沒有我們想要的基因,但往往乙個基因列表動輒上萬,因此這個方法雖然可以做,但軟體和統計知識並不允許我們去這麼幹。

於是,事先將已知的通路(包含相關的基因資訊)儲存起來,用的時候直接去驗證它們就好了,而這個就是基因集富集分析的基因集。比如要看某個go term在我們排序好的基因列表中富集在頭部還是尾部,就能反證我們的基因集中treat組上調或者下調基因是否屬於這個通路

gsea方法的原假設是:某個通路的全部基因在我們排序後的基因列表中隨機分布,如果我們看到它們」意外「出現在基因列表的某一端(從圖上看是在某一側形成乙個峰),那麼就可以計算顯著性來看看富集程度如何。如果富集結果顯著,那麼就拒絕原假設,認為這個通路的基因在我們的基因列表中富集,並且看到富集分數

名詞解釋

參考資料

方法一:r語言

首先也是做乙個差異分析,可以用limma、edger或者deseq2

然後需要乙個基因列表,按照log2fc從大到小排序

# 得到差異分析結果:deg_mtx

genelist # 如果是ensemble id,並且如果還帶著版本號,需要去除版本號,再進行基因id轉換,得到entrez id

names(genelist)                               pattern = '\\.',simplify = t)[,1]

genelist_tr                         fromtype = "ensembl",

totype = c("entrezid","symbol"),

orgdb = org.hs.eg.db) 

new_list                            logfc = as.numeric(genelist)) 

new_list "ensembl")

genelist names(genelist) # 最後從大到小排序,得到乙個字串

genelist t) 

再利用clusterprofiler進行gsea分析

方法二:gsea軟體

搞定輸入

軟體需要三個輸入檔案,分別是:

之前技能樹寫過:

其中結合晶元資料介紹了:批量執行gsea,命令列版本;製作自己的gene set檔案給gsea軟體

調整引數

參考:

檢視結果

程式一般會在主目錄下新建乙個目錄:gsea_home,然後output裡面按照日期進行排序

裡面的檔案會非常多,但有乙個總覽index.html

就會看到:

並且它們都可以直接點開看結果,或者將excel讀取到r語言中進行處理

如果要把結果讀取到r中

結果檔案也是存放在了index.html同級目錄中,就是乙個excel**

初學生信,很榮幸帶你邁出第一步

?生信星球?~乙個不拽術語、通俗易懂的生信知識平台

gsea富集分析結果怎麼看 單基因聯合自噬分析

identification of molecular correlations of rbm8a with autophagy in alzheimer s disease 二.文章思路 三.結果解讀 1.識別ad中差異表達的基因 作者探索rbm8a在ad中的作用使用的是gse33000資料集,樣...

基因富集分析

diff gene.entrez檔案,是通過各種差異基因軟體找出來的差異基因的entrez id號列表,每乙個id號一行,幾百個差異基因就幾百行 上述 為差異基因的kegg pathway富集分析結果 id kegg 資料庫中通路唯一的編號資訊。description gene ontology功能...

如何優雅展示GO富集結果

不知道分析過轉錄組的小夥伴有沒有碰到過這樣的問題 轉錄組後續做go富集的時候,發現最前面的那些term其實對應的基因都差不多,如果選前幾個畫圖,可能說明的只是一件事。我一般是手動選,在足夠顯著的前提下,選擇幾個不一樣的term來畫圖 當然還得符合預期 今天就發現了乙個網頁工具,可以對 語義 相似的g...