轉錄組分析 20個必須知道的轉錄組知識點!

2021-10-13 02:12:39 字數 3666 閱讀 9479

隨著測序成本的不斷下降,轉錄組測序分析已然成為生物學及醫學研究不可或缺的技術手段。

question and answer

1、什麼是轉錄組測序?

轉錄組廣義上指在某一生理條件下,細胞內所有轉錄組產物的集合,包括:mrna、ncrna、rrna等;狹義上指所有mrna的集合。

轉錄組測序的研究物件為特定細胞在某一功能狀態下所能轉錄出來的所有rna的總和,主要包括mrna和ncrna。

轉錄組具有時間特異性、組織特異性、空間特異性等特點。

2、無參轉錄組和有參轉錄組的區別?

如果所研究的物種有組裝注釋質量較好基因組序列,且和該基因組序列比對效率較高,那麼可以採用有參轉錄組的分析策略,直接進行分析。反之,則需要按照無參轉錄組的分析策略進行轉錄本組裝,構建unigene庫,然後進行後續分析。

3、普通轉錄組測序適用於哪些情況?

普通轉錄組測序主要適用於兩大類:一是不同的生長階段或者發育過程;二是不同的環境、藥物、病原菌等逆境脅迫處理。

4、轉錄組測序推薦的測序資料量?

轉錄組測序所需資料量與所研究物種的基因組大小有關,基因組越大,則所需資料量越大。按照我們的經驗來說:

常規物種一般建議6g資料即可;

5、轉錄組測序的取樣建議?

取樣要遵守三個原則:代表性和一致性原則、迅速性原則、低溫原則。

6、轉錄組測序必須做生物學重複麼?需要幾個重複?

生物學重複是生物實驗所必須的,轉錄組測序也不例外,至少3 次生物學重複。

準備生物重複樣品時,通過對實驗的預先設計和控制,盡可能將與實驗處理無關的背景條件控制在同一水平,減少批次效應對結果的影響。

7、轉錄組測序可以同時測到mrna、lncrna、micrna以及circrna麼?

我們通常所講的轉錄組測序只能測到mrna。但是全轉錄組測序通過構建兩個測序文庫(一是小rna測序文庫、二是lncrna測序文庫)是可以測到以上4種rna的。

8、有參轉錄組測序分析中,與參考基因組的比對效率多高才能夠滿足後續分析?

與參考基因組的比對效率與多個因素有關,包括基因組組裝質量、測序質量、有無汙染等;一般來說,與參考基因組的比對效率在70%以上時,該基因組可以滿足後續的分析需求。當比對效率低於60%時,需要考慮換參考基因組或者按照無參轉錄組分析策略進行分析。

9、所研究物種有參考基因組時,必須按照有參的來分析麼?

若參考基因組質量較差,則可以選擇按照無參轉錄組分析策略進行分析;

若所研究物種與參考基因組比對效率比較低,則需要按照無參轉錄組分析策略進行分析。

10、做完轉錄組之後一定要進行q-pcr驗證麼?一般驗證多少個差異基因合適?

目前來說,q-pcr驗證是轉錄組測序分析必不可少的補充驗證實驗,發文章必須。一般驗證15-20個差異基因比較合適。

11、q-pcr與轉錄組測序結果的吻合度一般多高是合適的?為什麼會出現不吻合的現象?

q-pcr與有參轉錄組分析結果的吻合度在80%以上;q-pcr與無參轉錄組分析結果的吻合度在70%以上。

出現結果不吻合現象的原因如下:實驗所用樣本弄混;沒有使用與轉錄組測序同一批的樣本進行q-pcr驗證;挑選的基因表達量較低或差異不顯著。

12、轉錄組測序的後續補充分析有哪些?

做完轉錄組測序可以考慮以下分析內容做為補充,用於提高文章檔次和深度。

可變剪接的深入分析(對生信基礎要求較高)

基因家族分析

wgcna分析

13、有參轉錄組測序分析的結果檔案中有全部基因的cds序列麼?在哪個檔案中?

一般來說結果檔案中有全部基因的cds序列。我公司有參轉錄組分析結果中的基因cds序列資訊位於gene_func_anno資料夾下面的newgene中的all.longest_tran.fa檔案裡。

14、轉錄組測序分析常用的資料庫有哪些?重點關注哪些注釋資訊?

nr:ncbi非冗餘蛋白資料庫,包含的資訊很全面, 注釋到的基因較多。

cog :中文釋義即「同源蛋白簇」。cog 分為兩類,一類是原核生物的,另一類是真核生物。原核生物的一般稱為 cog 資料庫;真核生物的一般稱為 kog 資料庫。

swiss-prot:經過注釋的蛋白質序列資料庫,資料庫中的蛋白質的功能經過了試驗驗證,注釋是精確的;

trembl:資料庫全稱「translation of embl」,是從embl中的cdna序列翻譯得到的,其中trembl收錄的是未經人工注釋的編碼dna序列翻譯資料;

kegg:翻譯成中文是京都基因與基因組百科全書,是乙個整合了基因組、化學和系統功能資訊的資料庫,旨在揭示生命現象的遺傳與化學藍圖。它是由人工建立的乙個知識庫,kegg資料庫最優的地方在於擁有描繪已知通路的代謝通路圖。另外kegg中有乙個「專有名詞」ko(kegg orthology),它是蛋白質(酶)的乙個分類體系,序列高度相似,並且在同一條通路上有相似功能的蛋白質被歸為一組,然後打上ko(或k)標籤,一般用字母k後面加5個數字表示。kegg_id 是pathway的id,表示方法是2-4個字母,後面跟上5個數字;

go(gene ontology):是基因本體聯合會(gene onotology consortium)所建立的資料庫,旨在建立乙個適用於各種物種的,對基因和蛋白質功能進行限定和描述的資料庫。按照三大類別bp(生物學過程)、 mf((分子功能)、cc(細胞組分)對基因的產物-蛋白質進行了分類,並能隨著研究不斷深入而更新的語言詞彙標準。在go資料庫中,本質上是乙個有向無環圖的資料結構,在三大類別之下,又有小的分類層級,一層一層的分類下去。對於某個具體的go號來說,代表一組同源蛋白,擁有相似的結構和功能;

pfam:是乙個被廣泛使用的蛋白家族資料庫,它有兩個資料庫,高質量,手工確定的pfam-a,自動注釋的pfam-b資料庫。

15、差異分析的篩選標準預設是多少?是固定不變的麼?

差異分析的篩選標準預設為:fold change≥2且fdr<0.01。篩選條件要靈活,要根據情況進行引數調整,資料是死的,人是活的,要靈活變通。

16、unigene和轉錄本的區別?

unigene是轉錄本的子集。首先通過triniy組裝出來的視為轉錄本,然後挑選最長的一條轉錄本作為unigene。

17、差異基因太多,注釋資訊太雜亂,怎麼挑選目標基因?

可以根據kegg和go富集分析結果,挑選富集程度較高的代謝通路和go terms,進而檢視相關的差異基因;

對不同的差異組合進行維恩圖分析,挑選共有或者特有的差異基因作為後續的研究物件;

根據前人的文獻報道,挑選相關差異基因,不要侷限在自己研究的物種上。

18、為什麼原核物種只能做有參轉錄組分析?

由於原核生物的基因組中存在大量基因重疊區域、操縱子及多順反子,如果按照無參轉錄組分析策略進行組裝的話,難度較大,組裝結果存在較大風險。

19、差異基因數目多少比較合理?

不同的處理,不同的研究目標,差異基因的數目是不同的,從幾十個到幾千個都有可能。但是如果差異基因數目是個位數或者上萬,那麼就需要和分析人員溝通一下,查一查是否有問題。

20、看不懂轉錄組結果怎麼辦?

我們專門針對初學者,我們精心製作了配套的《轉錄組分析結果解讀教程》,專門講解轉錄組每個分析內容的原理及結果每個資料夾、每個檔案、每個表頭及每個的生物學意義,確保您能看懂分析結果,需要學習課程的請複製下方鏈結,進入**。

有參轉錄組結果解讀課程:

無參轉錄組結果解讀課程:

21、不會深入挖掘轉錄組資料怎麼辦?

讀懂了轉錄組資料結果,還需要一些技能幫助我們深入挖掘資料,如:挑選目標基因、做venn圖、通路注釋、轉錄組因子調控分析、繪製熱圖、蛋白互作圖等等,假如您還不會這些技能,可以參考課程:《轉錄組標準分析後的資料探勘》,就可以學習以上技能。

轉錄組分析的正確姿勢

轉錄組分析是目前應用最廣的高通量測序分析技術之一。常見設計是不同樣品之間比較,尋找差異基因 標誌基因 協同變化基因 差異剪接和新轉錄本,並進行結果視覺化 功能注釋和網路分析等。轉錄組的測序分析也相對成熟,從rna提取 構建文庫 上機測序再到結果解析既可以自己完成,又可以在專業公司進行。概括來看轉錄組...

CIO必須知道的20個趨勢

cio對未來必須具有非凡的洞察力,既要領悟資訊科技和發展趨勢,又要洞察企業所處的市場環境與戰略選擇。不同企業,cio的境遇各不相同 不同的稱呼 不同的職責 不同的權利,但有一點是相同的,即cio必須是集多個角色於一身的領導者。承擔這一特殊使命,cio對未來必須具有非凡的洞察力,既要領悟資訊科技的發展...

20個必須知道的SEO概念

反向鏈結 backlink 又稱為 回指鏈結 入鏈 和 簡易鏈結 指從其他 指向你的 的乙個超級鏈結。反向鏈結之所以對seo異常重要,是因為它們直接影響乙個網頁的頁面等級 pagerank 以及這個頁面在搜尋結果中的排名。頁面等級 pagerank 是goolgle用來評估乙個頁面相對於其他頁面的重...