DIAMOND 超快的蛋白序列比對軟體

2021-09-29 03:43:58 字數 1309 閱讀 7227

相見恨晚,還好遇到了它

今天用blastx將我的轉錄本序列在uniprot蛋白資料庫(700w條序列)中搜尋,80個執行緒,過了1小時大概就分析1000條吧。實在是有點慢,於是我想到之前耳聞的diamond,據說速度非常快,於是我測試了下。沒想到,這工具居然那麼快。

根據diamond介紹,它有以下特點

我就看中它一點,速度快。

軟體安裝異常的簡單,因為提供了預編譯的64位可執行檔案

wget 

tar xzf diamond-linux64.tar.gz

# 有root全新啊

sudo mv diamond /usr/local/bin

# 無root許可權, ~/bin是自己當前目錄下

mv diamond ~/bin

因為 diamon的功能就是將蛋白或者翻譯後的核苷酸和蛋白資料庫進行比對,沒有blast那麼多功能,所以軟體使用也是異常的簡單。

wget 

gunzip nr.gz

第二步: 建庫。就兩個引數,--in nr輸入檔案,--db nr輸出的資料庫字首

diamond makedb --in nr --db nr
第三步: 搜尋。就兩個子命令,blastp和blastx,前者比對蛋白,後者比對dna序列

diamond blastx --db nr -q reads.fna -o dna_matches_fmt6.txt

diamond blastp --db nr -q reads.faa -o protein_matches_fmt6.txt

-q/--query輸入檢索序列,--out/-o輸出檔案,預設以--outfmt 6輸出結果和blast+的--outfmt 6結果一致。

注意事項:

效能優化:

掃碼即刻交流

spark比MapReduce快的原因

park比mapreduce快的原因 spark是基於記憶體的,而mapreduce是基於磁碟的迭代 mapreduce的設設計 中間結果儲存在檔案中,提高了可靠性,減少了記憶體占用。但是犧牲了效能。spark的設計 資料在記憶體中進行交換,要快一些,但是記憶體這個東西,可靠性不如磁碟。所以效能方面...

投資比的不是誰動作快

最近特別看好 高空作業平台,這一新興工程機械的發展前景。浙江鼎力作為高空作業平台上市第一股,吸引了我的注意。在這幾年工程機械走下坡路的情況下,它能連續5年保持30 40 的增長,可謂十分亮眼。據研究資料表明高空作業平台在美國的保有量為50w臺,而中國只有3w臺,考慮到中國人力成本的增加,高空作業平台...

堆排序計算詞頻的topk真的比快排快嗎

起初我一直以為計算topk問題堆排序效率會更加的高 實在是太蠢了 但是下面這段 輸出的時間差是相同的,這說明堆排序與快排在計算topk問題上所用的時間是相等的。分析 對這個現象進行分析,首先快排的時間複雜度是o n log n 而對於堆排序分為兩個過程,第乙個過程是建堆過程,即下面 的get top...