plink軟體輸入檔案的常見格式型別:
1,一般格式:ped/map
2,轉置格式:tped/tfam
3,二進位制格式:bed/bim/fam
幾種格式之間可以相互轉換。推薦使用bed/bim/fam這種格式,讀取速度快。bed檔案包含snp資料,是二進位制格式,不能由notepad++等文字編輯器開啟。bim檔案包括snp位置資訊,fam檔案包括家系表型資訊,這兩種檔案都是文字格式。 ped檔案格式:
column1 = familyid
column2 = individualid
column3 = paternalid
column4 = ***
column5 =phenotype (1 = unaffected, 2 = affected, 0 = missing)
column6 + column7 = genotype pair at snp1
column8 + column9 = genotype pair at snp2
…………
例如:
fam1 id1 fid mid 1 1 a t g g
fam1 id2 fid mid 2 1 a t c g
map檔案格式:
column1 = chromosome
column2 = snpidentifier
column3 = genetic distance in morgans(0, if missing)
column4 = physical base-pair position in bp units
# column3 and column4 are not required for basic association testing.
map檔案中染色體編號是根據人類染色體設計的:
1-22:常染色體
23:x染色體
24: y染色體
25:xy染色體擬常染色體區
26:線粒體
plink1.07中--sheep
,--cow
,--horse
,--mouse
,--dog
,可以根據這幾種的動物基因組設定染色體編號。
讀取綿羊snp資料可以用plink --file test --sheep
plink1.09中--chr-set 26
,設定1-26號染色體為常染色體,27號為x染色體,28號為y染色體。
輸入檔案格式彼此轉換的方法:
1、ped/map 轉換為tped/tfam格式
plink --ped test.ped --map test.map --recode --transpose --out test1
或者plink --file test --recode --transpose --out test1
#生成test1.tped和test1.tfam檔案
2、tped/tfam轉化為ped/map檔案
plink --tped test1.tped --tfam test1.tfam --recode --out test2
或者plink --tfile test1 --recode --out test2
#生成test2.ped和test2.map檔案
3、生成二進位制格式輸入檔案
#ped/map轉為二進位制格式
plink --file test --make-bed --out test3
#tfam/tped轉為二進位制格式
plink --tfile test1 --make-bed --out test3
#生成test3.bed,test3.bim和test3.fam檔案
4、二進位制格式轉為ped/map或tped/tfam
#用bfile來讀取test3.bed,test3.bim和test3.fam檔案
plink --bfile test3 --recode --transpose --out test4
#生成test4.tped和test4.tfam
plink --bfile test3 --recode --out test5
#生成test5.ped和test5.fam
其他格式轉換命令:
--recodead
,snp編碼成加性顯性模式,以0、1、2編碼snp,na為缺失值;
--recode12
,snp編碼為數字1或2,缺失值為0.
**:參考:
plink做SNP篩選和GWAS
1.vcf轉ped map plink vcf spirits.recode.vcf recode out test2.統計每個snp的maf,並將maf 0.05 miss 0.2的snp篩選出來並過濾掉。plink file 513lines 4429snps 110506 freq out t...
利用cca進行fmri分析
在肖柯的碩士畢業 中 基於cca的fmri時空模型資料處理方法的研究 他的總體思路是利用cca提取出fmri影象在時間和空間上兩個相關係數,也就是兩個特徵,然後利用pca,對這兩個特徵進行融合,得的乙個綜合的相關係數,然後利用這個綜合的相關係數進行選取閾值,然後判別啟用與否。首先,他沒有降噪。其次,...
利用sparksql進行報表分析
package report import config.confighelper import org.apache.spark.rdd.rdd import org.apache.spark.sql.import utils.makeatpkpi 利用sparksql進行報表分析 object ...