redundans的目標是輔助雜合基因組的組裝,輸入檔案可以是組裝的contig,測序文庫以及額外的參考基因組,最後用於搭建出scaffold級別的純合基因組組裝結果。包括如下幾個步驟:
對於我們三代組裝的結果而言,我們只需要去冗餘這一步即可。
這一步一定要保證你的電腦上裝了zlib庫,不然就需要去修改bwa和last的makefile, 手動新增"cflags"和"ldflags", 你或許不行。
git clone --recursive
cd redundans && bin/.compile.sh
結果輸出"done"才算是成功.如果還需要作圖,則需要安裝 matplotlib numpy
pip install matplotlib numpy
最好用下面這行命令測試下。
./redundans.py -v -i test/*_?.fq.gz -f test/contigs.fa -o test/run1
這個軟體就是在安裝的時候讓我折騰了下,使用倒是非常的方便,去冗餘主要調整的引數就是相似度和重疊(overlap)度 預設相似度引數--identity 0.51
,重疊比例是--overlap 0.80
越大越嚴格。
此外,如果你用-i
引數提供了二代測序資料,redundans
還會預設搭scaffold和補洞,但我只需要用到它的去冗餘步驟, 另外的兩步我不要,所以還要新增--noscaffolding
和--nogapclosing
跳過這兩步。
ident=0.55
ovl=0.80
contig=contig.fa
threads=10
redundans.py -v -f $ -o ident_$_ovl_$ -t $ \
--log ident_$_ovl_$.log \
--identity $ --overlap $ \
--noscaffolding --nogapclosing
上面**執行時如果不小心中斷了,加上--resume
就能斷點重跑了。 基因組 de novo 組裝原理
為了錯誤校正,將原始子reads進行overlap 預組裝和錯誤校正 錯誤校正後reads的overlap檢測 overlap的過濾 從overlap構建圖 從圖構建contigs sub reads是啥?為什麼要進行錯誤校正?校正的原理是什麼?length cutoff和length cutoff...
線粒體和葉綠體的基因組特點 基因和基因組
基因 gene 是能夠編碼蛋白質或者rna等具有特定功能產物的 負載遺傳資訊的基本單位,即有遺傳效應的dn 段 可以理解為 gene protein rna mrna trna rrna 基因組 genome 是指乙個生物體內所有遺傳物質的總和,對於含有線粒體或者葉綠體等結構的生物來說,還包括其中的...
三代組裝 使用Canu對三代測序進行基因組組裝
canu是celera的繼任者,能用於組裝pacbio和nanopore兩家公司得到的測序結果。canu分為三個步驟,糾錯,修整和組裝,每一步都差不多是如下幾個步驟 這三步可以分開執行,既可以用canu糾錯後結果作為其他組裝軟體的輸入,也可以將其他軟體的糾錯結果作為canu的輸入,因此下面分別執行這...