vcf檔案格式詳細解釋

2021-08-07 14:55:46 字數 3082 閱讀 2747

vcf具有表頭部分和正文部分,其中表頭部分是對正文部分中出現的縮寫的解釋。

vcf的正文部分,必須要有的是前面8列,一般來說有10列,分別是:

chrom

posid

refalt

qual

filter [來自於##filter]

info

format

可能會有樣本的名稱

chrom 和 pos:參考序列名和variant的位置;如果是indel的話,位置是indel的第乙個鹼基位置。

id:variant的id。比如在dbsnp中有該snp的id,則會在此行給出;若沒有,則用」.」表示其為乙個novel variant。

ref 和 alt:參考序列的鹼基 和 variant的鹼基。

qual:phred格式(phred_scaled)的質量值,表 示在該位點存在variant的可能性;該值越高,則variant的可能性越大;計算方法:phred值 = -10 * log (1-p)。 p為variant存在的概率; 通過計算公式可以看出值為10的表示錯誤概率為0.1,該位點為variant的概率為90%。

filter:使用上乙個qual值來進行過濾的話,是不夠的。gatk能使用其它的方法來進行過濾,過濾結果中通過則該值為」pass」;若variant不可靠,則該項不為」pass」或」.」。

info:這一行是variant的詳細資訊,內容很多,以下再具體詳述。

format 和 ttg11b:這兩行合起來提供了』ttg11b′這個sample的基因型的資訊。』ttg11b′代表這該名稱的樣品,是由bam檔案中的@rg下的 sm 標籤決定的。

「` 前面7列闡明該變異位點位於參考基因組的哪條染色體,哪個位置,是否被資料庫給標記了id(通常說的是dbsnp),該位置的參考基因組是什麼鹼基,這個變異位點變異成了什麼鹼基。找到這個變異的軟體給它的質量值是多少,是否合格。

第8列 info 比較複雜,包含資訊最多,看起來是一列,但是裡面可以根據欄位拆分成多列,都是 「tag=value」的形式,並使用」;」分隔。其中很多的tag含義在vcf檔案的頭部注釋資訊##info中已給出。

常見的tag有:

ac,af 和,an[a開頭的多和等位基因有關]:

ac(allele count) 表示該等位基因的數目;

af(allele frequency) 表示等位基因的頻率;

an(allele number) 表示等位基因的總數目。

對於1個diploid sample[二倍體樣本]而言:

基因型 0/1表示sample為雜合子,等位基因數為1(雙倍體的sample在該位點只有1個等位基因發生了突變),等位基因的頻率為0.5(雙倍體的

sample在該位點只有50%的等位基因發生了突變),總的等位基因為2;

基因型 1/1

表示sample為純合的,等位基因數為2,等位基因的頻率為1,總的等位基因為2。

dp:reads覆蓋度。是一些reads被過濾掉後的覆蓋度。[注意,第八列和第九列都有dp,都表示該位點覆蓋深度的資訊,但是詳細意義可能是不同的大家可以**一下,在head裡面就可以找到相應資訊]

dels:進行snp和indel calling的結果中,有該tag並且值為0表示該位點為snv,沒有則為indel。[可以根據這個tag分離indel和snv]

第9列資訊:位點的基因型,測序深度的描述,一般有兩列內容,前者為格式,後者為格式對應的資料。

第九列包含標籤有gt,dp,ft,gl,pl,gp等等,這些標籤的含義可以在該vcf檔案的表頭裡面找到。即vcf檔案中以 ##format 開頭的部分

gt

樣品的基因型(genotype)。兩個數字中間用』/」分 開,這兩個數字表示雙倍體的sample的基因型。0表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個variant的allele。

因此: 0/0表示sample中該位點為純合的,和ref一致; 0/1 表示sample中該位點為雜合的,有ref和variant兩個基因型; 1/1

表示sample中該位點為純合的,和variant一致。

ad 和 dp

ad(allele depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個值,前者對應ref基因型,後者對應variant基因型;

dp(depth)為sample中該位點的覆蓋度(一些reads被過濾掉的覆蓋度)。

gq

基因型的質量值(genotype quality)。phred格式(phred_scaled)的質量值,表示在該位點該基因型存在的可能性;該值越高,則genotype的可能性越大;計算方法:phred值 = -10 * log (1-p) p為基因型存在的概率。

pl

指定三種基因型的質量值。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。 phred值 = -10 * log (p) p為基因型存在的概率。

Vcf檔案格式

vcf檔案格式是gatk鍾愛的表示遺傳變異的一種檔案格式。就拿gatk給出的vcf例子說明吧,下面這個檔案只表示了乙個完整vcf檔案的前幾個snp。看上去確實有點複雜,那就把它分為兩部分看吧,第一部分把他歸為說明檔案,就是每一列最前面有2個 符號的那些列所提到的就是為了解釋下面 正文 info列中可...

ply檔案格式詳細說明

典型的 ply 檔案結構 頭部頂點列表 麵片列表 其他元素列表 頭部是一系列以回車結尾的文字行,用來描述檔案的剩餘部分。頭部包含乙個對每個元素型別的描述,包括元素名 如 邊 這個元素在工程裡有多少,以及一 個與這個元素關聯的不同屬性的列表。頭部還說明這個檔案是二進位制的或者是ascii的。頭部後面的...

ply檔案格式詳細說明

典型的 ply 檔案結構 頭部 頂點列表 麵片列表 其他元素列表 頭部是一系列以回車結尾的文字行,用來描述檔案的剩餘部分。頭部包含乙個對每個元素型別的描述,包括元素名 如 邊 這個元素在工程裡有多少,以及一 個與這個元素關聯的不同屬性的列表。頭部還說明這個檔案是二進位制的或者是ascii的。頭部後面...