參考:【乾貨】基因組組裝你了解多少? -- 諾禾致源
動植物基因組de novo工作,其組裝指標的好壞直接影響著整個基因組的質量。而評估基因組組裝結果,contign50和scaffoldn50是第一指標,即contig/ scaffoldn50:將contig/scaffold長度從長到短進行排序並累加,當累加和達到contig/scaffold總長度的50%的時候,最後參與加和的那一條contig/scaffold長度即為contig/ scaffoldn50的長度。一般來說,contig/scaffoldn50越長,表示組裝結果越好。
但是,n50指標高就意味著組裝結果就一定可靠嗎?
不一定!將一些不相關的reads或者contig錯誤的連線為scaffold,一樣可以達到很高的scaffoldn50。
目前高水平文章發表,組裝指標固然是一方面,但真正決定文章發表檔次的,是生物學故事是否足夠完美,有亮點。我們知道,後續分析依賴的基礎便是組裝得到的基因組,因此,不可靠的組裝結果,對基因組後續分析會造成很大的困擾,甚至會得出錯誤的生物學結論。
那麼,如何才能檢驗乙個基因組組裝結果的可靠性呢?
所謂完整性評估,即評估組裝得到的基因組對基因區的覆蓋程度,一般需要借助rna方面的證據進行評估,如est資料或rna reads。由於用來評估的rna方面證據不同,得到的比例也會有差別。一般來說,50%的scaffold覆蓋基因的95%以上,85%的scaffold覆蓋基因的90%以上,認為組裝較完整。
通過全長bac序列,可以通過與組裝結果的比對,對組裝結果的正確性進行驗證,從bac序列和scaffold是否具有較好的一致性來判斷組裝質量。
即根據廣泛存在於大量真核生物中的保守蛋白家族集合(248個core gene庫),對組裝得到基因組進行評估,評估組裝基因組中的core gene的準確性和完整性。可以通過該物種和同源物種cegma的比例,判斷保守基因組裝情況。
可以看到組裝出來基因組為2.4g,cover陸地棉基因組96%,(survey預估基因組為2.5g),contign50為34k, scaffoldn50為1.6m,定位到遺傳圖譜上的scaffold有1.9g(9%),其中a亞種contign50為30.7k,scaffoldn50為1.4m,d亞種contign50為47.2k,scaffoldn50為2.5m。
採用1 ,054 條g. hirsutum.全長mrna序列進行完整性評估,可以看到有90%的mrna被一條scaffold覆蓋的比例為94%以上,即有94%的基因是組裝完整的;有50%的mrna被一條scaffold覆蓋的比例為99%以上,即有99%的基因是組裝出來的。說明組裝版本有很好的完整性。
採用該物種的四條全長bac序列對組裝結果進行評估,紅線代表bac序列,藍線代表scaffold序列,空白區代表scaffold上的gap區,橘黃色線代表bac和scaffold比對上的區間塊。從上圖也可以看到組裝結果和bac序列有很好的比對結果,即說明組裝有較高的正確性。
另外,從染色體角度,也可以驗證組裝結果,如下圖所示,採用諾禾組裝的四倍體棉花d亞組同已發表的jgi組織以及bgi組織發表的雷蒙德氏棉花進行全基因組比對,可以看到,a圖,諾禾的組裝版本與jgi組織組裝得到的基因組有很好的共線性,眾所周知,jgi組織發表的棉花基因組是採用sanger測序,並進行多種驗證的組裝版本,具有很高的正確性和指導性,進一步說明諾禾的組裝版本有很好的準確性。
可以看到,組裝得到240個core gene,其中有231個core gene是完整的。
綜上,諾禾組裝結果不但可以承諾高指標,並且有嚴謹的評估標準對組裝結果進行評估,保證組裝結果的準確性。
參考文獻
zhang t z, hu y, jiang w k,et.al. sequencing of all otetraploid cotton (gossypium hirsutum l.acc.tm-1)provides a resource for fibre improvement.
動植物基因組組裝要點小結
目錄二代測序平台如illumina bgi,穩定可靠,資料質量高,成本低,讀長短。三代測序平台如pacbio nanopore,超長讀長 無pcr擴增,錯誤率高,成本高。現在物種的簡單基因組基本已完成大多,純二代組裝已經沒什麼意義,複雜基因組或者高質量基因組基本都是三代測序為主。由於經費限制,現在多...
基因組組裝 HiC掛載Juicebox糾錯補充
目錄2.其他有用操作 上篇hic掛載軟體以及如何用juice box手工糾錯?我吐槽了juicebox操作麻煩,且沒有詳細文件。今天在3d dna流程3d de novo assembly 3d dna pipeline中,終於找到juicebox的官方文件了 第1 4章主要說明3d dna流程,第...
使用Canu對三代測序進行基因組組裝
canu是celera的繼任者,能用於組裝pacbio和nanopore兩家公司得到的測序結果。canu分為三個步驟,糾錯,修整和組裝,每一步都差不多是如下幾個步驟 這三步可以分開執行,既可以用canu糾錯後結果作為其他組裝軟體的輸入,也可以將其他軟體的糾錯結果作為canu的輸入,因此下面分別執行這...