基因組組裝完成之後,就需要對最後的質量進行評估。我們希望得到的contig檔案中,每個contig都能足夠的長,能夠有乙個完整的基因結構,歸納一下就是3c原則:
但是這三條原則其實是相互矛盾的,連續性越高,就意味著要處理更多的模糊節點,會導致整體錯誤率上公升,為了保證完全的正確,那麼就會導致contig非常的零碎。此外,這三條原則也比較定性,我們需要更加定量的數值衡量,目前比較常用的標準是n50和busco/cegma。
最近有一篇文章"assessing genome assembly quality using the ltr assembly index (lai) "提出用長末端重複序列來評估基因組完整度,因為ltr比較難以組裝,於是就用作評估結果的乙個引數了。那問題來了,什麼是ltr序列,ltr是在原病毒(整合的反轉錄病毒)兩末的重複序列,結構見下圖
ltr結構
上圖中tsd表示target site duplications,紅色三角表示ltr motif。a圖是乙個完整的ltr結構,其中a,b,c是ltr_retriever
的分析目標。
lai指數就是完整ltr反轉座子序列佔總ltr序列長度的比值。
其實作為乙個農學出身,看到lai,我腦海就想到了leaf area index(葉面積指數)本文以擬南芥的基因組為例來測試一下這個軟體
要想保證軟體能夠順利的安裝,需要先安裝如下這幾個軟體, 好訊息是這些軟體都可以通過bioconda解決
cd ~/opt/biosoft
git clone
進入ltr_retriever
檔案下修改paths檔案,提供每個軟體所在的檔案路徑,下面是我的配置,你需要按照實際所在路徑來設定
blast+=/home/xuzhougeng/opt/biosoft/ncbi-blast-2.7.1+/bin/
repeatmasker=/home/xuzhougeng/opt/biosoft/repeatmasker/
hmmer=/home/xuzhougeng/opt/anaconda2/envs/maker/bin/
cdhit=/home/xuzhougeng/opt/anaconda2/envs/assembly/bin/
cd ~/opt/biosoft
git clone
cd ltr_finder/source/
make
第一步讓我們用ltr_finder
找到基因組的ltr序列
~/opt/biosoft/ltr_finder/source/ltr_finder -d 20000 -d 1000 -l 700 -l 100 -p 20 -c -m 0.9 athaliana.fa >athaliana.finder.scn
這裡的-d表示5'和3'ltr之間的最大距離,-d表示5'和3'ltr之間的最小距離,-l表示5'和3'ltr序列的最大長度,-l表示5'和3'ltr序列的最小長度,-p表示完全匹配配對的最小長度,-c表示檢測中心粒(centriole)刪除高度重複區域,-m表示最小的ltr相似度。如果不怎麼該怎麼設定就用預設值。
第二步執行ltr_retriever
根據ltr_finder
的輸出識別ltr-rt,生成非冗餘ltr-rt文庫,可用於基因組注釋
~/opt/biosoft/ltr_retriever/ltr_retriever -threads 4 -genome athaliana.fa -infinder athaliana.finder.scn
這裡的-infinder
表示輸入來自於ltr_finder
,它支援同時輸入ltrharvest的輸出(-inharvest
)和 mgescan-ltr 的輸出(-inmgescan
). 嫌速度太慢,可以用-threads
增加執行緒數
這一步會呼叫repeatmasker,而repeatmasker要求序列id長度不大於50個字元,所以請在第一步的時候請先對id進行修改。第三步計算lai。如果前面找到ltr序列太少,低於5%,這一步程式就會報錯,那麼你就需要調整第一步引數,可能是太嚴格了。
/opt/biosoft/ltr_retriever/lai -t 10 -genome athaliana.fa -intact athaliana.fa.pass.list -all athaliana.fa.out
這裡最後的結果檔案為athaliana.fa.out.lai, 第二行就是總體資訊,其中raw_lai是12.88, lai是14.47
chr from to intact total raw_lai lai
whole_genome 1 119667750 0.0079 0.0612 12.88 14.47
得到的lai值按照如下評估標準進行分類:
category
laiexamples
draft
0 ≤ lai < 10
reference
10 ≤ lai < 20
arabidopsis (tair10), grape (12x)
gold
20 ≤ lai
rice (msuv7), maize (b73 v4)
和例子一樣,tair10是中等水平。
LAI 評估基因組質量乙個標準
基因組組裝完成之後,就需要對最後的質量進行評估。我們希望得到的contig檔案中,每個contig都能足夠的長,能夠有乙個完整的基因結構,歸納一下就是3c原則 但是這三條原則其實是相互矛盾的,連續性越高,就意味著要處理更多的模糊節點,會導致整體錯誤率上公升,為了保證完全的正確,那麼就會導致conti...
基因組組裝結果質量評估
參考 乾貨 基因組組裝你了解多少?諾禾致源 動植物基因組de novo工作,其組裝指標的好壞直接影響著整個基因組的質量。而評估基因組組裝結果,contign50和scaffoldn50是第一指標,即contig scaffoldn50 將contig scaffold長度從長到短進行排序並累加,當累...
人基因組(一)
人類基因組包含22條染色體和1條x或者y染色體,這些染色體長度為45 279mb,加起來共為3286mb。基於染色體的結構,全部基因可被分為常染色質 euchromatin 區域 通常包含活性基因 和異質染色質 heterochromatin 區域,後者攜帶低密度的活性基因。常染色質組成了基因組的主...