go kegg GO分析和KEGG分析都是啥?

2021-10-13 12:29:49 字數 1302 閱讀 5303

幾乎現在的套路性文章在做完差異表達分析後,都會去做go和kegg富集分析。那麼go和kegg都是什麼?富集分析又是個什麼東西呢?

1 為什麼做富集分析?

在我們進行差異表達分析的時候,我們會得到很多的差異表達基因。這些基因如果只是按照基因名放到**的話,我們很難找到乙個規律說這些有基因之間有什麼關係的。例如下圖,我們把這些差異基因平鋪來了之後,就是這麼乙個情況。

高通量的資料的分析,可以讓我們得到很多候選的結果。但是如果只是把結果這樣的平鋪開的話,反正不利於我們去發現事情的本質。所以為了更情況的看清楚這些基因的功能,我們就使用了富集分析。我們可以把富集分析理解為在把很零零碎碎的東西,通過乙個整體來反應出來,類似於從微觀到巨集觀的變化。

利用富集分析,我們就可以把很多看著雜亂的差異基因總結出乙個比較整體反應事件發生的概述性的句子。例如:tp53訊號通路和胃癌的發生有關。而不是說bax、bid、abl1、atm、bcl2、bok、cdkn1a這7個基因和胃癌的發生有關係。

2 go和kegg是什麼?

就算沒有做過富集分析,但是也肯定見過公司或者一些文章裡面寫到他們做了go分析和kegg pathway分析。那麼這兩個東西到底是什麼?

對於每個基因而言,其基本的功能基於他們的蛋白結構域以及研究的文獻已經可以大致的知道乙個基因具有什麼樣子的功能了。go和kegg就是基於不同的分類思想而儲存的基因相關功能的資料庫。go資料庫,全稱是gene ontology(基因本體),他們把基因的功能分成了三個部分分別是:細胞組分(cellular component, cc)、分子功能(molecular function, mf)、生物過程(biological process, bp)。利用go資料庫,我們就可以得到我們的目標基因在cc, mf和bp三個層面上,主要和什麼有關。例如: srsf1

這個基因的在go資料庫的注釋就有:

kegg資料庫:除了對基因本身功能的注釋,我們也知道基因會參與人體的各個通路,基於人體通路而形成的資料庫就是通路相關的資料庫。而kegg就是通路相關的資料庫的一種。其實通路資料庫有很多,類似於wikipathway,reactome都是相關的通路資料庫。只是因為kegg比較被人熟知,所以基本上都做這個分析的。例如: srsf1

這個基因的在通路資料庫的注釋就有:

3 go、kegg和富集分析有什麼關係呢?

通過上面的解釋,我們知道,其實go和kegg是兩個資料庫,裡面有每個基因相關的功能資訊,而富集分析就是乙個把這些功能進行進行整合計算的演算法。

go和kegg是基礎,而富集是過程,最後得到的結果就是整合後的巨集觀的結果。

對於go和kegg基本上就是這些。但是對於富集分析,還是有不同的演算法的。有時間我們就來簡單的介紹一下基本的一些富集分析的演算法。

go kegg GO分析和KEGG分析都是啥?

幾乎現在的套路性文章在做完差異表達分析後,都會去做go和kegg富集分析。那麼go和kegg都是什麼?富集分析又是個什麼東西呢?1 為什麼做富集分析?在我們進行差異表達分析的時候,我們會得到很多的差異表達基因。這些基因如果只是按照基因名放到 的話,我們很難找到乙個規律說這些有基因之間有什麼關係的。例...

go kegg GO分析和KEGG分析都是啥?

幾乎現在的套路性文章在做完差異表達分析後,都會去做go和kegg富集分析。那麼go和kegg都是什麼?富集分析又是個什麼東西呢?1 為什麼做富集分析?在我們進行差異表達分析的時候,我們會得到很多的差異表達基因。這些基因如果只是按照基因名放到 的話,我們很難找到乙個規律說這些有基因之間有什麼關係的。例...

go kegg GO分析和KEGG分析都是啥?

幾乎現在的套路性文章在做完差異表達分析後,都會去做go和kegg富集分析。那麼go和kegg都是什麼?富集分析又是個什麼東西呢?在我們進行差異表達分析的時候,我們會得到很多的差異表達基因。這些基因如果只是按照基因名放到 的話,我們很難找到乙個規律說這些有基因之間有什麼關係的。例如下圖,我們把這些差異...