我最近在做tcga資料分析,在處理中遇到的問題及其收穫。主要包括:
涉及到的函式有:小寫
大寫 單一的區域性匹配
多個全域性匹配
保留固定長度的字元在ranseqgene中case id 為大寫的,而clincial中為小寫的。需要對case id 做轉換。
方案一:大寫變小寫
tolower(colnames(luad_rnaseqgene))
方案二:小寫變大寫toupper(rownames(luad_clinical))
在找tumor 的case id 時,需要採用這個函式將所有的tumor 找出來。
grep("\\.01a",colnames(luad_rnaseqgene))
對於normal的查詢類似處理。
由於case id 很長,我們只需要前面的12或16個字元來作為識別驗證。
substr(colnames(luad_clinical),1,12) # 保留12位
rna中對映到clinical中,採用這個函式
例子
#定義a
> a<-c(1,2,3,4)
#定義b
> b<-c(3,4,5,6,7)
#匹配》 match(a,b)
[1] na na 1 2
#a和b中共同的元素
> a[-which(is.na(match(a,b)))]
[1] 3 4
#a和b中共同的元素
> b[match(a,b)]
[1] na na 3 4
#a中有的元素而不在b中
> a[is.na(match(a,b))]
[1] 1 2
注:match的結果長度與a保持一致,na表示該位置元素不在b中,非na表示該元素在b中的位置。 tcga樣本編號 TCGA資料分析 8
在獲得顯著性差異表達基因後,這裡我們再根據padj值,由差異分析結果中篩選10例顯著差異表達的基因以及這些基因在樣本中的表達矩陣。然後對這10例基因進行roc曲線分析和kaplan meier分析。1.篩選10例顯著差異表達基因 差異表達的3584基因表達譜 x d selected x d mat...
R語言 資料分析
二 大資料分析 三 資料分析常用工具 資料分析是指用適當的統計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發資料資料的功能,發揮資料的作用。資料分析是為了驗證假設的問題,需要提供必要的資料驗證。分析模型構建完成後,需要利用測試資料驗證模型的正確性。資料分析是為了挖掘更多的問題,並...
R語言 基本資料分析
本文基於r語言進行基本資料統計分析,包括基本作圖,線性擬合,邏輯回歸,bootstrap取樣和anova方差分析的實現及應用。不多說,直接上 中有注釋。1.基本作圖 盒圖,qq圖 basic plot boxplot x qqplot x,y 2.線性擬合 linear regression n 1...