vcf具有表頭部分和正文部分,其中表頭部分是對正文部分中出現的縮寫的解釋。
vcf的正文部分,必須要有的是前面8列,一般來說有10列,分別是:
chrom
posid
refalt
qual
filter [來自於##filter]
info
format
可能會有樣本的名稱
chrom 和 pos
:參考序列名和variant的位置;如果是indel的話,位置是indel的第乙個鹼基位置。
id
:variant的id。比如在dbsnp中有該snp的id,則會在此行給出;若沒有,則用」.」表示其為乙個novel variant。
ref 和 alt
:參考序列的鹼基 和 variant的鹼基。
qual
:phred格式(phred_scaled)的質量值,表 示在該位點存在variant的可能性;該值越高,則variant的可能性越大;計算方法:phred值 = -10 * log (1-p)
。 p為variant存在的概率; 通過計算公式可以看出值為10的表示錯誤概率為0.1,該位點為variant的概率為90%。
filter
:使用上乙個qual值來進行過濾的話,是不夠的。gatk能使用其它的方法來進行過濾,過濾結果中通過則該值為」pass」;若variant不可靠,則該項不為」pass」或」.」。
info
:這一行是variant的詳細資訊,內容很多,以下再具體詳述。
format 和 ttg11b
:這兩行合起來提供了』ttg11b′這個sample的基因型的資訊。』ttg11b′代表這該名稱的樣品,是由bam檔案中的@rg下的 sm 標籤決定的。
「` 前面7列闡明該變異位點位於參考基因組的哪條染色體,哪個位置,是否被資料庫給標記了id(通常說的是dbsnp),該位置的參考基因組是什麼鹼基,這個變異位點變異成了什麼鹼基。找到這個變異的軟體給它的質量值是多少,是否合格。
第8列 info 比較複雜,包含資訊最多,看起來是一列,但是裡面可以根據欄位拆分成多列,都是 「tag=value」的形式,並使用」;」分隔。其中很多的tag含義在vcf檔案的頭部注釋資訊##info中已給出。
常見的tag有:
ac,af 和,an[a開頭的多和等位基因有關]:
ac(allele count) 表示該等位基因的數目;對於1個diploid sample[二倍體樣本]而言:af(allele frequency) 表示等位基因的頻率;
an(allele number) 表示等位基因的總數目。
基因型 0/1表示sample為雜合子,等位基因數為1(雙倍體的sample在該位點只有1個等位基因發生了突變),等位基因的頻率為0.5(雙倍體的dp:reads覆蓋度。是一些reads被過濾掉後的覆蓋度。[注意,第八列和第九列都有dp,都表示該位點覆蓋深度的資訊,但是詳細意義可能是不同的大家可以**一下,在head裡面就可以找到相應資訊]sample在該位點只有50%的等位基因發生了突變),總的等位基因為2;
基因型 1/1
表示sample為純合的,等位基因數為2,等位基因的頻率為1,總的等位基因為2。
dels:進行snp和indel calling的結果中,有該tag並且值為0表示該位點為snv,沒有則為indel。[可以根據這個tag分離indel和snv]
第9列資訊:位點的基因型,測序深度的描述,一般有兩列內容,前者為格式,後者為格式對應的資料。
第九列包含標籤有gt,dp,ft,gl,pl,gp
等等,這些標籤的含義可以在該vcf檔案的表頭裡面找到。即vcf檔案中以 ##format 開頭的部分
gt:
樣品的基因型(genotype)。兩個數字中間用』/」分 開,這兩個數字表示雙倍體的sample的基因型。0表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個variant的allele。ad 和 dp:因此: 0/0表示sample中該位點為純合的,和ref一致; 0/1 表示sample中該位點為雜合的,有ref和variant兩個基因型; 1/1
表示sample中該位點為純合的,和variant一致。
ad(allele depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個值,前者對應ref基因型,後者對應variant基因型;gq:dp(depth)為sample中該位點的覆蓋度(一些reads被過濾掉的覆蓋度)。
基因型的質量值(genotype quality)。phred格式(phred_scaled)的質量值,表示在該位點該基因型存在的可能性;該值越高,則genotype的可能性越大;計算方法:phred值 = -10 * log (1-p) p為基因型存在的概率。pl
指定三種基因型的質量值。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。 phred值 = -10 * log (p) p為基因型存在的概率。
Vcf檔案格式
vcf檔案格式是gatk鍾愛的表示遺傳變異的一種檔案格式。就拿gatk給出的vcf例子說明吧,下面這個檔案只表示了乙個完整vcf檔案的前幾個snp。看上去確實有點複雜,那就把它分為兩部分看吧,第一部分把他歸為說明檔案,就是每一列最前面有2個 符號的那些列所提到的就是為了解釋下面 正文 info列中可...
ply檔案格式詳細說明
典型的 ply 檔案結構 頭部頂點列表 麵片列表 其他元素列表 頭部是一系列以回車結尾的文字行,用來描述檔案的剩餘部分。頭部包含乙個對每個元素型別的描述,包括元素名 如 邊 這個元素在工程裡有多少,以及一 個與這個元素關聯的不同屬性的列表。頭部還說明這個檔案是二進位制的或者是ascii的。頭部後面的...
ply檔案格式詳細說明
典型的 ply 檔案結構 頭部 頂點列表 麵片列表 其他元素列表 頭部是一系列以回車結尾的文字行,用來描述檔案的剩餘部分。頭部包含乙個對每個元素型別的描述,包括元素名 如 邊 這個元素在工程裡有多少,以及一 個與這個元素關聯的不同屬性的列表。頭部還說明這個檔案是二進位制的或者是ascii的。頭部後面...