使用Mikado挑選最好的轉錄本進行注釋

2021-09-29 03:43:58 字數 3093 閱讀 5331

mikado是基於python3寫的基因組結構注釋工具,它主要做的是從多個轉錄組組裝工具得到的轉錄本裡挑選出最好的結果作為基因組的結構注釋。此外,它還會基於同源蛋白比對結果對轉錄本打分。換句話說這個軟體主要是根據轉錄組資料進行注釋,沒有 ab inito **。

軟體安裝比較方法,我們可以使用bioconda進行安裝:

conda create -n mikado mikado

# 開啟python進行測試, 注意大小寫

# import mikado

# mikado.test()

mkdir -p reference

cd reference

wget

wget

wget "" -o aedes_aegypti.fasta.gz

gunzip *gz

cd ../

mkdir -p reads

cd reads

wget

wget

wget

wget

cd ../

使用daijin configure建立配置檔案, 包括如下內容

daijin configure --scheduler "" \

--scoring dmelanogaster_scoring.yaml \

--copy-scoring dmelanogaster_scoring.yaml \

-m permissive --sample-sheet sample_sheet.tsv \

--flank 500 -i 50 26000 --threads 2 \

--genome reference/drosophila_melanogaster.bdgp6.dna.toplevel.fa \

-al hisat -as stringtie -od dmelanogaster --name dmelanogaster \

-o daijin.yaml --prot-db reference/aedes_aegypti.fasta;

: 在-as引數中不推薦使用class2,在我的執行經驗裡,class2的組裝得到gtf檔案為空,導致後續步驟會報錯。也不推薦用trinity,有乙個bug導致其無法順利執行。

這裡面的samples_sheet.tsv內容如下. 第一列和第二列是雙端測序的read, 第三列是樣本名, 第四列表示是否為鏈特異性建庫, 包括非鏈特異性(fr-unstranded), 鏈特異性資料且第乙個reads是正向鏈第二個reads是反向鏈(fr-firststrand ), 鏈特異性資料且第二個reads是正向鏈第乙個reads是反向鏈(fr-secondstrand), 僅正向鏈(f)和僅反向鏈(r), 最後一列表示是否非為三代測序結果(false表示為二代測序)

reads/err1662533_1.fastq.gz reads/err1662533_2.fastq.gz     err1662533      fr-unstranded   false

reads/err1662534_1.fastq.gz reads/err1662534_2.fastq.gz err1662534 fr-unstranded false

執行組裝步驟。

daijin assemble -nd -j 20 --c 20 -t 50 -nd daijin.yaml

# -nd 一般伺服器都沒有drmaa

# -j/--jobs: 每次投遞多少任務

# -c/--cores: 執行多少個任務並行

# -t/--threads: 每個任務最多多少個執行緒,一般在daijin configure 用--threads指明

執行時出現的問題和解決方案:

...

rule bam_stats:

input:

bam=rules.bam_sort.output,

idx=rules.bam_index.output

output: align_dir+"/output/.sorted.bam.stats"

params:

load=loadpre(config, "samtools"),

#plot_out=align_dir+"/output/plots//"

threads: 1

message: "using samtools to collected stats for: "

shell: " samtools stats > "

#" && plot-bamstats -p "

...

執行結束之後得到如下檔案

dmelanogaster/3-assemblies/output/class-0-hisat-err1662533-0.gtf

dmelanogaster/3-assemblies/output/class-0-hisat-err1662534-0.gtf

dmelanogaster/3-assemblies/output/stringtie-0-hisat-err1662533-0.gtf

dmelanogaster/3-assemblies/output/stringtie-0-hisat-err1662534-0.gtf

同時將總的統計結果存放在了"dmelanogaster/3-assemblies/assembly.stats"下

上一步提供了組裝得到的gtf檔案就可以作為mikado的輸入進行結構注釋, 其中mikado要求的輸入檔案在dmelanogaster_scoring.yaml, 裡面的內容

daijin mikado -j 10 -c 20 -nd dmelanogaster/mikado.yaml
最後的結果在dmelanogaster/5-mikado/pick/permissive/mikado-permissive.loci.gff3

使用RSEM進行轉錄組測序的差異表達分析

仍然是兩年前的筆記 1.prepare reference 如果用rsem對比對後的bam進行轉錄本定量,則在比對過程中要確保比對用到的索引是由rsem prepare reference產生的。software rsem rsem prepare reference transcript to g...

vim使用教程(全) 最好的編輯器

vim的學習曲線相當的大,所以,如果你一開始看到的是一大堆vim的命令分類,你一定會對這個編輯器失去興趣的。下面的文章翻譯自 learn vim progressively 我覺得這是給新手最好的vim的公升級教程了,沒有列舉所有的命令,只是列舉了那些最有用的命令。非常不錯。正文開始 你想以最快的速...

收集最好的Mac軟體和使用方法

作者是剛從windows下轉到mac時寫的,這篇文章對也主要介紹了mac下開發環境的部署 軟體的安裝和解除安裝 常用快捷鍵 檔案系統的介紹。大而全的新手指南,主要針對小白,相信沒有人會看不懂。乙份大而全得mac應用清單,從要不要買mac說起,清單涵蓋了基本工具 編輯器 開發工具 效率 介面 郵件 日...