使用Canu對三代測序進行基因組組裝

2021-09-20 00:20:03 字數 2439 閱讀 8792

canu是celera的繼任者,能用於組裝pacbio和nanopore兩家公司得到的測序結果。

canu分為三個步驟,糾錯,修整和組裝,每一步都差不多是如下幾個步驟:

這三步可以分開執行,既可以用canu糾錯後結果作為其他組裝軟體的輸入,也可以將其他軟體的糾錯結果作為canu的輸入,因此下面分別執行這三步,並介紹重要的引數。

幾個全域性引數:genomesize設定預估的基因組大小,這用於讓canu估計測序深度; maxthreads設定執行的最大執行緒數;rawerrorrate用來設定兩個未糾錯read之間最大期望差異鹼基數;correctederrorrate則是設定糾錯後read之間最大期望差異鹼基數,這個引數需要在組裝時多次調整;minreadlength表示只使用大於閾值的序列,minoverlaplength表示overlap的最小長度。提高minreadlength可以提高執行速度,增加minoverlaplength可以降低假陽性的overlap。

ena搜尋

## pacbio sequal

wget -c -q

## minion

wget -c -q

# illuminia miseq

wget -c -q

wget -c -q

# build index for convert

~/opt/biosoft/smrtlink/smrtcmds/bin/pbindex pb.bam &

# convert bam to fasta

~/opt/biosoft/smrtlink/smrtcmds/bin/bam2fasta -o pb pb.bam &

第一步:糾錯。三代測序本身錯誤率高,使得原始資料充滿了噪音。這一步就是通過序列之間的相互比較糾錯得到高可信度的鹼基。主要調整兩個引數

canu -correct \

-p ath -d pb_ath \

threads=10 gnuplottested=true\

genomesize=120m minreadlength=2000 minoverlaplength=500\

coroutcoverage=120 cormincoverage=2 \

-pacbio-raw pb.fasta.gz

可以將上述命令儲存到shell指令碼中進行執行,nohup bash run_canu.sh 2> correct.log &.

注: 有些伺服器沒有安裝gnuplot, gnuplottested=true 可以跳過檢查。

第二步:修整。這一步的目的是為了獲取更高質量的序列,移除可疑區域(如殘留的smrtbell接頭).

canu -trim \

-p ath -d pb_ath

maxthreads=20 gnuplottested=true\

genomesize=120m minreadlength=2000 minoverlaplength=500\

-pacbio-corrected ath/pb_ath.correctedreads.fasta.gz

第三步: 組裝。在前兩步獲得高質量的序列後,就可以正式進行組裝. 這一步主要調整的就是糾錯後的序列的錯誤率, correctederrorrate,它會影響utgovlerrorrate。這一步可以嘗試多個引數,因為速度比較塊。

# error rate 0.035

canu -assemble \

-p ath -d ath-erate-0.035 \

maxthreads=20 gnuplottested=true \

genomesize=120m\

correctederrorrate=0.035 \

-pacbio-corrected atg/pb_ath.trimmedreads.fasta.gz

# error rate 0.050

canu -assemble \

-p ath -d ath-erate-0.050 \

maxthreads=20 gnuplottested=true \

genomesize=120m\

correctederrorrate=0.050 \

-pacbio-corrected atg/pb_ath.trimmedreads.fasta.gz

最後輸出檔案下的ath.contigs.fasta就是結果檔案。

三代組裝 使用Canu對三代測序進行基因組組裝

canu是celera的繼任者,能用於組裝pacbio和nanopore兩家公司得到的測序結果。canu分為三個步驟,糾錯,修整和組裝,每一步都差不多是如下幾個步驟 這三步可以分開執行,既可以用canu糾錯後結果作為其他組裝軟體的輸入,也可以將其他軟體的糾錯結果作為canu的輸入,因此下面分別執行這...

三代測序組裝工具Canu學習筆記

canu是celera的繼任者,能用於組裝pacbio和nanopore兩家公司得到的測序結果。canu分為三個步驟 糾錯,修整和組裝。wget c o pacbio.fastq wget c o oxford.fasta 為了測試方便,這裡沒有從 canu 的原始碼編譯,而是直接使用的 docke...

三代糾錯軟體LoRDEC安裝和使用(0 6版本)

2 安裝 2 修改lordec的makefile,定義gatb core 1.3.0路徑,3,make 2 使用 1.校正pacbio reads lordec correct k 19 s 3 a 5 2 ngs.fq i iso.fa t 4 s statistics.txt m 20g o c...