樣本量重要,還是測序深度重要?

2021-08-30 17:29:59 字數 1392 閱讀 2589

我認為是樣本量遠比測序深度重要。只要有足夠多的樣本,我們甚至可以用很低的測序深度(比如1x)獲得這些樣本中每個人準確的genotype和群體的遺傳頻譜。這是為什麼?

其中乙個核心原因是人類這個物種具有單一祖先起源,這也是乙個重要的前提假設。但同時我想強調一點,這裡的「單一」並不是特指只有乙個個體,而是指形成這個群體(比如說現代人,甚至就只是中國的漢族人)的祖先歸結起來只有為數不多的若干個部落。在這種情況下,人群多樣性的源頭實際上就主要來自這些部落之間的基因交流和融合。

另乙個核心原因是時間不夠。人類其實是乙個很年輕的群體,特別是現代智人(我們這一波),遺傳的分化歷史很短,按照目前估算大約是10萬年前才開始。而群體出現遺傳差異的動力主要有兩個:(1)基因組自身的突變和重組;(2)生殖細胞在形成配子過程中發生的重組。但基因組突變和重組的速率都是很低的,大概只有10^-8次方左右。也就是說乙個人因為突變所帶來的遺傳差異,積累起來大約是30-100個。這個只是序列上的突變(主要是點突變),重組雖然有所不同——它是大範圍序列的交換,影響的範圍很大,但是一般不認為它直接帶來序列突變。我們可以理解為它帶來的是突變在整個群體中的擴散和分配

然而,10萬年的時間,差不多只有5000代人,這個數字放在物種遺傳的歷史上是很短暫的一瞬,這個時間跨度不足以引起整個群體的多樣性爆發。對於東亞人來說則更少,目前發表過的研究表明,東亞人的歷史更短,大概起源於6萬年前,所以你會在千人基因組專案中看到東亞人(特別是漢族人)內部的分化差異極小。最終歸結起來,人類這個群體中單倍體的組合數目是非常有限的。

所以如果要揭示乙個特定群體的遺傳圖譜,我們大可不必對全體樣本都進行高深度測序,只需要把其中一部分人進行深測獲得較高質量的變異集合,然後其他樣本則直接使用低深度測序(甚至是定製的晶元測序,不過我更偏向於選擇低深度全基因組測序),再結合連鎖不平衡遺傳定律,我們就完全有能力推斷那些沒被充分覆蓋的區域中的具體基因型,千人基因組和冰島人就是這樣的乙個例子。

gatk的haplotypecaller演算法實際上也是利用這樣的原理實現了更加準確的變異檢測的。在變異檢測時,gatk會利用所有樣本的資料,預先構造出這個群體的haplotype組合(這應該也是haplotypecaller這個名字的由來),以及這個組合中各個單體型在群體中的後驗概率,然後再依據每個樣本自己的比對資料,通過貝葉斯原理計算出各個樣本在每個位點上的基因型和各自基因型的後驗概率。如果參與分析的樣本足夠多,那麼理論上它就能夠構建出更加準確的haplotype組合,然後反過來就會提公升各個樣本的變異檢測結果。

過程重要,還是結果重要?

當我們在談到自己的失敗時,我們總是在說我們在失敗中學到了什麼,而不去計較最終的結果是什麼。但當我們談到某位成名的英雄時,總是在談論他的累累碩果,而很少談及他在走向成功道路上的付出。究竟是過程重要呢,還是結果重要?從小學到初中,再到高中,大學,自己經歷的失敗數不勝數,身邊成功的例子枚不勝舉。每每看到別...

興趣重要還是堅持重要

今天網上閒逛的時候看到一本書 白帽子講web安全 然後順便看了一下作者簡介,2000年在西安交通大學少年班學習,2005年進入阿里巴巴,時年21歲,2007年p7,職位技術專家,2010年p8,職位高階技術專家,上面簡介說可能是阿里巴巴最年輕的高階技術專家,這時候他的年齡是26歲。是阿里巴巴最具價值...

外匯心理重要還是技術重要

在外匯交易中,不僅僅是技術上的問題,對於心理問題的認識要比技術方面的認識還有重要,之前不是很理解交易心理的問題,在經過這麼長時間的 後發現,原來高手和新手交易者的區別看是乙個鴻溝,但是乙個層窗戶紙,只要越過自己的心理防線就可以穩定下來。對於技術方面的,從入市的那天起就不斷說趨勢為王,趨勢交易為主,但...