TCGA資料庫的利用(二) 資料處理!

2021-09-22 12:31:54 字數 1181 閱讀 4598

樣本名稱轉化為tcga樣本編號

這裡我就利用了python指令碼把樣本名與tcga樣本編號建立乙個字典,然後進行逐一修改,

修改後的結果如下(注意:修改後的檔案還是乙個以.gz結尾的壓縮包,這裡只是修改了前面的名稱而已):

資料合併

這裡先建立乙個空矩陣作為公共矩陣,利用r語言中的gzfile函式讀取第乙個樣本壓縮包裡面的資料轉化為乙個二維矩陣,tcga樣本編號設定為資料的列名,基因的ensembl編號設定為資料的行名;

把這個二維矩陣賦給那個公共矩陣,隨後的樣本資料寫乙個for迴圈,讀取方式跟第乙個相同,不同的是這裡建立好的二維矩陣不是賦給公公矩陣,而是以第一列為參照列與前面合成的公共矩陣進行合併,最終可以把最後的矩陣寫入乙個csv資料夾中;

資料合併結果如下:

基因注釋

這一步是把行名為基因的ensembl編號轉化為基因官方id,這裡利用的是r程式包clusterprofiler和org.hs.eg.db(這種注釋方法會導致注釋的基因大大減少):

最終處理後的資料如下,接下來我們既可以正常地進行分析了,最好在分析之前把處理好的資料備份一下防止資料損壞。

利用資料庫來解決我冗繁的資料處理

周五,咱部門秘書找到我,給了我乙個 格式如下,整整有668行記錄,告訴我說,現在如下這個 裡部門名稱是公司名稱,並不是員工所在的部門具體名稱,請給以下 再添一列,補上其員工所在的具體部門名稱.請我務必幫忙,因為若手工一條一條增加這668行記錄一列為這些員工們填上具體部門名稱,估計人得瘋掉。同時領導等...

資料庫資料處理故事多

每年評教都會遇到資料匯入的一系列問題。從中收穫頗豐。這兩天別人總在問我,你們基礎出了什麼問題,為什麼總在導資料。資料沒問題,為了做足準備,我們需要將8期版的最全的資料整理到10期資料庫中。背景介紹 問題在於從8期版基礎系統到10期版基礎系統在資料庫設計方面有了很大的變化,例如10期學生表中存放著班級...

ORACEL資料庫資料處理 增

給大家介紹乙個簡單oracel資料庫資料處理 增 資料操縱語言 dml data manipulation language 資料操縱語言 可以在下列條件下執行 向表中插入資料 修改現存資料 刪除現存資料 事務是由完成若干項工作的dml語句組成的 insert into插入資料 為每一列新增乙個新值...