簡化基因組 如何過濾用GATK分析得到的SNP

2021-09-29 03:43:58 字數 1081 閱讀 4684

qd > 2.0

fs > 60.0

mq > 40.0

mqranksum > -12.5

readposranksum > -8.0

sor > 3.0

那麼一頓操作之後,你會驚喜的發現,自己資料似乎都不見了。那麼原因是什麼呢?我們先來理解每個標準的含義

在解釋原因之前,先讓我們回顧下乙個gbs資料比對後在i**的情況

gbs比對情況

他們的比對位置並不隨機,因此任何和strand bias有關的標準在過濾時,也就是fs > 60.0 sor > 3.0時會過濾掉90%的資料,因此過濾掉許多真實的變異。

因此,官方提供的標準,gbs資料只要用以下幾個就行

qd > 2

mq > 40.0

mqranksum > -12.5

readposranksum > -8

當然具體標準,我建議用vcfr匯入vcf檔案,通過柱狀圖分布來確定。

附上我的一批資料通過這些標準過濾的結果

> table(qd>2)

false true

1140 91348

> table(mq > 40.0)

false true

8924 83565

> table(mqranksum > -12.5)

true

92465

> table(readposranksum > -8)

false true

103 92127

> table(fs >= 60.0)

false true

86515 5974

> table(sor > 3)

false true

85705 6784

線粒體和葉綠體的基因組特點 基因和基因組

基因 gene 是能夠編碼蛋白質或者rna等具有特定功能產物的 負載遺傳資訊的基本單位,即有遺傳效應的dn 段 可以理解為 gene protein rna mrna trna rrna 基因組 genome 是指乙個生物體內所有遺傳物質的總和,對於含有線粒體或者葉綠體等結構的生物來說,還包括其中的...

人基因組(一)

人類基因組包含22條染色體和1條x或者y染色體,這些染色體長度為45 279mb,加起來共為3286mb。基於染色體的結構,全部基因可被分為常染色質 euchromatin 區域 通常包含活性基因 和異質染色質 heterochromatin 區域,後者攜帶低密度的活性基因。常染色質組成了基因組的主...

比較基因組學

以 全基因組 測序為目標的 結構基因組學 structural genomics 以 基因功能鑑定 為目標的 功能基因組學 functional genomics 又被稱為後基因組 postgenome 比較基因組學 comparative genomics 是基於基因 譜和測序基礎上,對已知的基因...