初步組裝的雜合基因組如何去冗餘

2021-09-29 03:43:58 字數 1143 閱讀 2568

redundans的目標是輔助雜合基因組的組裝,輸入檔案可以是組裝的contig,測序文庫以及額外的參考基因組,最後用於搭建出scaffold級別的純合基因組組裝結果。包括如下幾個步驟:

對於我們三代組裝的結果而言,我們只需要去冗餘這一步即可。

這一步一定要保證你的電腦上裝了zlib庫,不然就需要去修改bwa和last的makefile, 手動新增"cflags"和"ldflags", 你或許不行。

git clone --recursive 

cd redundans && bin/.compile.sh

結果輸出"done"才算是成功.如果還需要作圖,則需要安裝 matplotlib numpy

pip install matplotlib numpy
最好用下面這行命令測試下。

./redundans.py -v -i test/*_?.fq.gz -f test/contigs.fa -o test/run1
這個軟體就是在安裝的時候讓我折騰了下,使用倒是非常的方便,去冗餘主要調整的引數就是相似度和重疊(overlap)度 預設相似度引數--identity 0.51,重疊比例是--overlap 0.80越大越嚴格。

此外,如果你用-i引數提供了二代測序資料,redundans還會預設搭scaffold和補洞,但我只需要用到它的去冗餘步驟, 另外的兩步我不要,所以還要新增--noscaffolding--nogapclosing跳過這兩步。

ident=0.55

ovl=0.80

contig=contig.fa

threads=10

redundans.py -v -f $ -o ident_$_ovl_$ -t $ \

--log ident_$_ovl_$.log \

--identity $ --overlap $ \

--noscaffolding --nogapclosing

上面**執行時如果不小心中斷了,加上--resume就能斷點重跑了。

基因組 de novo 組裝原理

為了錯誤校正,將原始子reads進行overlap 預組裝和錯誤校正 錯誤校正後reads的overlap檢測 overlap的過濾 從overlap構建圖 從圖構建contigs sub reads是啥?為什麼要進行錯誤校正?校正的原理是什麼?length cutoff和length cutoff...

線粒體和葉綠體的基因組特點 基因和基因組

基因 gene 是能夠編碼蛋白質或者rna等具有特定功能產物的 負載遺傳資訊的基本單位,即有遺傳效應的dn 段 可以理解為 gene protein rna mrna trna rrna 基因組 genome 是指乙個生物體內所有遺傳物質的總和,對於含有線粒體或者葉綠體等結構的生物來說,還包括其中的...

三代組裝 使用Canu對三代測序進行基因組組裝

canu是celera的繼任者,能用於組裝pacbio和nanopore兩家公司得到的測序結果。canu分為三個步驟,糾錯,修整和組裝,每一步都差不多是如下幾個步驟 這三步可以分開執行,既可以用canu糾錯後結果作為其他組裝軟體的輸入,也可以將其他軟體的糾錯結果作為canu的輸入,因此下面分別執行這...