TCGA樣本命名詳解

2021-09-08 14:16:20 字數 1459 閱讀 7679

在tcga中,乙個患者可能會對應多個樣本,如tcga-a6-6650可以得到3個樣本資料:

tcga-a6-6650-01a-11r-1774-07

tcga-a6-6650-01a-11r-a278-07

tcga-a6-6650-01b-02r-a277-07

大家知道一般在做tcga資料分析的時候樣本名實際上只保留到前四個元素(以」-「分割),例如tcga-a6-6650-01。所以實際上上示3個樣本一般只保留乙個,那該怎麼取捨呢?

在取捨之前,當然要先搞清楚樣本命名方式:

我們將此示圖以」-「分割,具體拆開解讀一下:

tcga:project, 所有tcga樣本名均以這個開頭,標誌

a6:tissue source site,組織**編碼,如a6就表示**於christiana healthcare中心的結腸癌組織。更多編碼所代表的意義詳見:

6650:participant, 參與者編號

01:sample, 這兩個數字可以說是最關鍵、最被大家注意的,其中編號01~09表示腫瘤,10~19表示正常對照,如下:

所以在tcga樣本名中,這個位置最常見的就是01和11,當然偶爾也會有其他的數字

a:vial, 在一系列患者組織中的順序,絕大多數樣本該位置編碼都是a; 很少數的是b,表示****固定石蠟包埋組織,已被證明用於測序分析的效果不佳,所以不建議使用-01b的樣本資料:

所以命名至此,已經可以開始用於區別不同的樣本了,以下將是更細節的描述:

所以現在看這三個樣本:

tcga-a6-6650-01a-11r-1774-07

tcga-a6-6650-01a-11r-a278-07

tcga-a6-6650-01b-02r-a277-07

其區別就在於,前兩個使用的是患者的冰凍組織做的測序,而第三個用的是****固定石蠟包埋組織;而前兩個樣本的區別在於同一組織後續使用了不同的96孔板。

理解了命名規則及三者命名上的主要區別後,現在可以重點解決如何從乙個患者的多個樣本中挑選樣本的問題了,首先排除tcga-a6-6650-01b-02r-a277-07,因為是-01b,****固定石蠟包埋組織!剩下的兩個:

tcga-a6-6650-01a-11r-1774-07

tcga-a6-6650-01a-11r-a278-07

先看看gdac firehose遇到這種情況怎麼解決,總結起來就是:

1、對rna資料來說,analyte為r的優先順序最該,其次是r和t,而對於dna層面的分析來說,d的優先順序最高。

2、如果analyte相同,那就選擇portion和/或plate值更大的。

所以按照gdac firehose的方法,最終保留tcga-a6-6650-01a-11r-a278-07,因為其相對於tcga-a6-6650-01a-11r-1774-07的板號(plate)更晚:

雖然看起來可能這麼選比較準確,但是稍微有些麻煩~

然後是cbioportal中的處理方式:

tcga樣本編號 TCGA資料分析 8

在獲得顯著性差異表達基因後,這裡我們再根據padj值,由差異分析結果中篩選10例顯著差異表達的基因以及這些基因在樣本中的表達矩陣。然後對這10例基因進行roc曲線分析和kaplan meier分析。1.篩選10例顯著差異表達基因 差異表達的3584基因表達譜 x d selected x d mat...

版本命名規範

1.版本命名規範 軟體版本號有四部分組成,第一部分為主版本號,第二部分為次版本號,第三部分為修訂版 本號,第四部分為日期版本號加希臘字母版本號,希臘字母版本號共有五種,分別為base alpha beta rc release 2.軟體版本階段說明 base 此版本表示該軟體僅僅是乙個假頁面鏈結,通...

版本命名規則

1.軟體版本階段說明 alpha版 此版本表示該軟體在此階段主要是以實現軟體功能為主,通常只在軟體開發者內部交流,一般而言,該版本軟體的bug較多,需要繼續修改。beta版 該版本相對於 版已有了很大的改進,消除了嚴重的錯誤,但還是存在著一些缺陷,需要經過多次測試來進一步消除,此版本主要的修改對像是...