人類基因組的二重奏

2022-09-06 17:33:09 字數 3443 閱讀 7893

二代測序大大提高了測序的通量,伴隨而來的基因組也遍地開花,但在構建高質量的參考基因組方面仍然不能令人滿意。隨著新的測序技術如三代/光學/hic的出現,使得構建高質量的參考基因組更加高效。對於一些重要的研究物件,乙個參考基因組顯然是不足以滿足研究需求的。以兩篇16年發表的人的基因組文獻為例,對構建高質量的基因組以及深入分析提供乙個案例。

chinese genome: hx1

hx1是由暨南大學主導完成的中國人參考基因組」華夏一號」,採用三代+光學的測序技術,完成的乙個高質量的基因組。

1.測序基本資訊

測序材料    中國健康成年男性新鮮抽取的血樣,核型正常

測序方法    pacbio rsii測序儀,p6/c4酶

bionano irys測序儀,nt.bspqi酶

hiseq x測序儀,pe150測序

iso_seq測序,構建了四個文庫:1-2kb,2-3kb,3-5kb,5kb+

測序資料    rsii測得377個smrt cells,共得到309gb測序資料,平均長度7.0kb

iyrs測得12個cells,平均長度259kb,測序深度101x

hiseq x測得428.8gb資料,測序深度143x

iso_seq測得50個cells,共得到5.8gb測序資料

2.基因組概述

首先,通過falcon組裝軟體對pacbio測序資料進行糾錯和拼接,得到5843條contigs,n50長度8.3mb,基因組大小2.9 gb;然後,通過illumina測序資料對基因組進行校正;最終,通過光學資料進行混拼,得到scaffold版本基因組,n50長度達到22.0mb,gap大小39.3mb,基因組大小2.93gb。

與grch38相比,hx1中包含12.8mb新的序列,且其中4.1mb序列未在以前發布的亞洲人群基因組中發現。基於組裝的hx1填補grch38上的gaps,28.4%(274個)gaps能夠被完全填補或部分縮短,共7.1mb的序列。

通過iso_seq資料,共**到30006個基因座上的58383個同源異構體,其中包括57個未在gencode轉錄組資料庫中存在的同源異構體。使用pcr以及sanger測序,進一步驗證了乙個**的新轉座元件和兩個新基因的準確性。

3.變異分析

在結構變異(sv)檢測方面,比較pacbio/illumina/bionano資料分析結果,pacbio長reads檢測的敏感性最好,並且某些結構變異包含具有種族特異性的功能元件。其中,通過比較包含在千人基因組計畫中的svs,驗證了乙個東亞人群特有的缺失變異。

通過illumina測序資料,識別出3518309個單核苷酸變異(snvs)和625690個插入缺失變異(indels),進一步分析變異的功能和臨床相關性。通過過濾最小基因頻率(msf)大於0.01以及注釋到dbsnp資料庫中的突變,得到新突變資訊,其中有372個snvs和50個indels位於外顯子區域;通過將變異注釋到clinvar資料庫,得到」致病「分類的變異,進一步通過msf過濾以及人工查閱文獻,證明2個」致病變異「為錯誤的臨床資料,hx1中未發現致病突變。

ak1是首爾大學完成的南韓人參考基因組「大韓一號」,採用三代+光學的測序資料進行全基因組組裝,bac+10x進行單倍型區分,從而完成的乙個高質量的二倍體基因組。對ak1該如何翻譯也是思考了一番,是」高麗一號「還是」朝鮮一號「呢?考察了友邦的歷史之後,最終選擇了高大上的」大韓一號「。

1.測序基本資訊

測序材料    ak1個體的永生化細胞系

測序方法    pacbio rsii測序儀,p6/c4酶

bionano irys測序儀,nt.bspqi酶

gemcode構建10x genomics文庫,hiseq2500測序

hiseq x測序儀,pe150測序

bac文庫來自62758個bac clones,pe100測序

iso_seq測序,構建了四個文庫:1-2kb,2-3kb,3-6kb,5kb+

測序資料    rsii測得380個smrt cells,測序深度101x

iyrs測得97x和108x兩輪資料,後者用於防止酶切脆性位點的片段化

hiseq x測序深度72x

haplotype bacs reads測序深度47x

10x linked reads深度30x

2.基因組概述

通過falcon組裝軟體對pacbio測序資料進行拼接,得到3128條contigs,n50長度17.9mb,基因組大小2.87gb;經quiver校正後的基因組結合光學資料進行混拼,得到scaffold版本基因組,scaffold數目2832條,n50長度達到44.8mb,其中最長的91條scaffold覆蓋了基因組的90%,且8條染色體臂被單條scaffold完整跨過,gap大小37.3mb,基因組大小2.90gb。

為進一步更好的反映二倍體基因組結構,組裝出成對的同源染色體的單倍型結果,首先整合了bacs reads/10x linked reads/pacbio long reads/illumina short reads資料進行單倍型區分,結果顯示單倍型的區塊n50長度達到11.5mb;然後,通過分別組裝分到不同單倍型的pacbio reads,得到18964條haplotigs,總大小4.8gb。其中,通過單倍型a和同源區域reads組裝的結果為haplotig a,總大小2.63gb;通過單倍型b的reads組裝的結果為haplotig b,總大小2.19gb。

3.變異分析

在結構變異(sv)檢測方面,通過直接比較組裝結果,總共發現ak1和grch37間存在18210個svs。其中,發生在外顯子區域的615個變異中,427個是新變異,且68%並不影響蛋白功能;對發生變異的31個基因進行功能注釋,它們與離子結合、表皮生長因子、纖連蛋白有關。

單倍體的特異突變可以通過比較haplotigs間的變異來識別,這些單倍體間的雜合snvs/indels/svs總鹼基大小69.8mb。進一步進行單倍型的驗證,通過對人白細胞抗原(hla)基因的pacbio捕獲測序,結果表明基於組裝的分型方法能有效的解決高變區的區分。

兩篇人的基因組都聚焦於整合不同平台測序資料與高質量參考基因組的構建,對於個人基因組的變異分析也進行了比較全面的概述。

看著有關人類基因組的科學研究在短短二十年內取得的巨大成果,也是感觸良多。如果說人類基因組計畫標誌著人類探索自身奧秘的重要一步,千人基因組計畫開啟大規模人群基因組遺傳多型性的探索,或許個人基因組的時代在下乙個十年就會到來。開啟基因之書,我們將看到是健康與疾病,還是篩選與偏見?對於疾病相關的檢查產品固然是值得期待,但可驗性值得商榷,規範化、標準化之路漫漫修遠;而消費級的產品的往往涉及個人的隱私,而且大眾關於基因的偏見和盲目是顯而易見的,「轉基因」的事情就可見一斑。

這是最好的時代,也是最壞的時代,這是智慧型的時代,也是愚蠢的時代。

ps: 感覺我還是見識太少,「精準美容」之後,"精準辟穀"粉墨登場,令人嗟嘆!

人類基因組概況 整理

人類基因組概況 人類基因組由atcg四種鹼基組成,但是cg的含量低於50 所以cg含量低於at含量。乙個基因組的dna大約3ug。平均每100到1000個鹼基會出現1個snps,不過密度並不均勻。如果按照每1000個鹼基存在1個snp來計算,人類30億個鹼基中,大約有300萬個snps。人類基因組的...

金字塔二重奏魔方

魔方總覽 金字塔魔方 1,金字塔二重奏魔方 2,魔方三要素 1 組成部件 4個角塊和1個中心塊,這個中心塊有點特殊,是乙個四面體 2 可執行操作 四軸,每個軸帶動1個角塊和中心塊旋轉120度 3 目標態 3.1 形狀 任意一次操作之後,魔方都是正四面體,最後也自然是正四面體。3.2 顏色 由於角塊是...

bzoj3578 GTY的人類基因組計畫2

description gty召喚了n個人來做實驗,gty家的房子很大,有m個房間一開始所有人都在1號房間裡,gty會命令某人去某個房間等待做實驗,或者命令一段區間的房間開始實驗,實驗會獲得一些實驗資訊點數,點數為房間裡的人數,如果乙個房間裡的一群人已經做過實驗了那麼這些人將不會增加實驗資訊點數 不...