tcga樣本編號 TCGA資料分析 8

2021-10-12 19:14:31 字數 1368 閱讀 8702

在獲得顯著性差異表達基因後,這裡我們再根據padj值,由差異分析結果中篩選10例顯著差異表達的基因以及這些基因在樣本中的表達矩陣。然後對這10例基因進行roc曲線分析和kaplan-meier分析。1.篩選10例顯著差異表達基因

#差異表達的3584基因表達譜

x_d_selected=x_d[match(tcga_result_genesymbol$ensembl_gene_id,rownames(x_d)),]

#選取在癌組織 vs 正常組織中pvalue顯著差異的10例基因

selected_genes=head(tcga_result_genesymbol[order(tcga_result_genesymbol$padj),]$hgnc_symbol,10)

selected_genes_id=head(tcga_result_genesymbol[order(tcga_result_genesymbol$padj),]$ensembl_gene_id,10)

#選擇表達矩陣

roc_selected=x_d[match(selected_genes_id,rownames(x_d)),]

2.繪製roc曲線

library(proc)

par(mfrow=c(2,5))

group_number=as.factor(ifelse(group=="cancer",1,0))

for(i in 1:length(selected_genes_id))

結果:除asah2基因外,其他9組基因的auc面積高達90%以上,說明這些基因的表達對於區分正常組織或癌組織有較高準確率;可能是潛在的「腫瘤標誌物」。

3. kaplan-meier單因素分析載入survival包

library(survival)
將上次獲得的臨床病理資訊資料(tcga資料分析 (6),tcga資料分析 (7))中加入一列newid,為了後續病理資訊與表達矩陣的對應。

結果:col10a1, ash2以及hoxc10基因表達水平的高低,與患者的預後密切相關。

以上,我們就找到了和胃癌預後以及胃癌發生可能相關的基因,為了進一步證實研究的發現,可以結合其他資料集(比如geo資料)或實驗進行驗證。如果要解釋分子機制,可以通過結合甲基化資料,mirna資料等進行分析。

TCGA樣本命名詳解

在tcga中,乙個患者可能會對應多個樣本,如tcga a6 6650可以得到3個樣本資料 tcga a6 6650 01a 11r 1774 07 tcga a6 6650 01a 11r a278 07 tcga a6 6650 01b 02r a277 07 大家知道一般在做tcga資料分析的時...

R語言 TCGA資料分析一

我最近在做tcga資料分析,在處理中遇到的問題及其收穫。主要包括 涉及到的函式有 小寫 大寫 單一的區域性匹配 多個全域性匹配 保留固定長度的字元在ranseqgene中case id 為大寫的,而clincial中為小寫的。需要對case id 做轉換。方案一 大寫變小寫tolower colna...

TCGA資料庫的利用(二) 資料處理!

樣本名稱轉化為tcga樣本編號 這裡我就利用了python指令碼把樣本名與tcga樣本編號建立乙個字典,然後進行逐一修改,修改後的結果如下 注意 修改後的檔案還是乙個以.gz結尾的壓縮包,這裡只是修改了前面的名稱而已 資料合併 這裡先建立乙個空矩陣作為公共矩陣,利用r語言中的gzfile函式讀取第乙...