3. 怎麼解釋variation
id:variant的id。比如在dbsnp中有該snp的id,則會在此行給出;若沒有,則用』."表示其為乙個novel
variant。
ref 和 alt:參考序列的鹼基 和 variant的鹼基。
qual:phred格式(phred_scaled)的質量值,表
示在該位點存在variant的可能性;該值越高,則variant的可能性越大;計算方法:phred值 = -10 * log
(1-p) p為variant存在的概率;
通過計算公式可以看出值為10的表示錯誤概率為0.1,該位點為variant的概率為90%。
filter:使用上乙個qual值來進行過濾的話,是不夠的。gatk能使用其它的方法來進行過濾,過濾結果中通過則該值為」pass」;若variant不可靠,則該項不為」pass」或」.」。
info:這一行是variant的詳細資訊,內容很多,以下再具體詳述。
format 和
na12878:這兩行合起來提供了』na12878′這個sample的基因型的資訊。』na12878′代表這該名稱的樣品,是由bam檔案中的@rg下的
sm 標籤決定的。
4. 基因型資訊
chr1
873762 . t g [clipped] gt:ad:dp:gq:pl 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 a g [clipped] gt:ad:dp:gq:pl
1/1:0,105:94:99:255,255,0 chr1 899282 rs28548431 c t [clipped]
gt:ad:dp:gq:pl 0/1:1,3:4:25.92:103,0,26
看上面最後兩列資料,這兩列資料是對應的,前者為格式,後者為格式對應的資料。
gt:樣品的基因型(genotype)。兩個數字中間用』/"分 開,這兩個數字表示雙倍體的sample的基因型。0
表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個variant的allele。因此:
0/0 表示sample中該位點為純合的,和ref一致; 0/1
表示sample中該位點為雜合的,有ref和variant兩個基因型; 1/1
表示sample中該位點為純合的,和variant一致。
ad 和 dp:ad(allele
depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個值,前者對應ref基因型,後者對應variant基因型;
dp(depth)為sample中該位點的覆蓋度。
gq:基因型的質量值(genotype
quality)。phred格式(phred_scaled)的質量值,表示在該位點該基因型存在的可能性;該值越高,則genotype的可能性越
大;計算方法:phred值 = -10 * log (1-p) p為基因型存在的概率。
pl:指定的三種基因型的質量值(provieds the likelihoods of the given
genotypes)。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。和之前不一致,該值越大,表明為該種基因型的可能
性越小。 phred值 = -10 * log (p) p為基因型存在的概率。
簡化基因組 如何過濾用GATK分析得到的SNP
qd 2.0 fs 60.0 mq 40.0 mqranksum 12.5 readposranksum 8.0 sor 3.0 那麼一頓操作之後,你會驚喜的發現,自己資料似乎都不見了。那麼原因是什麼呢?我們先來理解每個標準的含義 在解釋原因之前,先讓我們回顧下乙個gbs資料比對後在i 的情況 gb...
iOS UIAlertView的使用方法詳細
uialertview的常用方法 標準樣式 uialertview onealertview uialertview alloc initwithtitle 標題 message 提示內容 delegate self cancelbuttontitle 關閉 otherbuttontitles ok...
php函式addslashes 使用方法詳解
在每個雙引號 前新增反斜槓 str addslashes shanghai is the biggest city in china.echo str 執行例項 shanghai is the biggest city in china.addslashes 函式返回在預定義字元之前新增反斜槓的字串...