相見恨晚,還好遇到了它今天用blastx將我的轉錄本序列在uniprot蛋白資料庫(700w條序列)中搜尋,80個執行緒,過了1小時大概就分析1000條吧。實在是有點慢,於是我想到之前耳聞的diamond,據說速度非常快,於是我測試了下。沒想到,這工具居然那麼快。
根據diamond介紹,它有以下特點
我就看中它一點,速度快。
軟體安裝異常的簡單,因為提供了預編譯的64位可執行檔案
wget
tar xzf diamond-linux64.tar.gz
# 有root全新啊
sudo mv diamond /usr/local/bin
# 無root許可權, ~/bin是自己當前目錄下
mv diamond ~/bin
因為 diamon的功能就是將蛋白或者翻譯後的核苷酸和蛋白資料庫進行比對,沒有blast那麼多功能,所以軟體使用也是異常的簡單。
wget
gunzip nr.gz
第二步: 建庫。就兩個引數,--in nr
輸入檔案,--db nr
輸出的資料庫字首
diamond makedb --in nr --db nr
第三步: 搜尋。就兩個子命令,blastp和blastx,前者比對蛋白,後者比對dna序列
diamond blastx --db nr -q reads.fna -o dna_matches_fmt6.txt
diamond blastp --db nr -q reads.faa -o protein_matches_fmt6.txt
-q/--query
輸入檢索序列,--out/-o
輸出檔案,預設以--outfmt 6
輸出結果和blast+的--outfmt 6
結果一致。
注意事項:
效能優化:
掃碼即刻交流
spark比MapReduce快的原因
park比mapreduce快的原因 spark是基於記憶體的,而mapreduce是基於磁碟的迭代 mapreduce的設設計 中間結果儲存在檔案中,提高了可靠性,減少了記憶體占用。但是犧牲了效能。spark的設計 資料在記憶體中進行交換,要快一些,但是記憶體這個東西,可靠性不如磁碟。所以效能方面...
投資比的不是誰動作快
最近特別看好 高空作業平台,這一新興工程機械的發展前景。浙江鼎力作為高空作業平台上市第一股,吸引了我的注意。在這幾年工程機械走下坡路的情況下,它能連續5年保持30 40 的增長,可謂十分亮眼。據研究資料表明高空作業平台在美國的保有量為50w臺,而中國只有3w臺,考慮到中國人力成本的增加,高空作業平台...
堆排序計算詞頻的topk真的比快排快嗎
起初我一直以為計算topk問題堆排序效率會更加的高 實在是太蠢了 但是下面這段 輸出的時間差是相同的,這說明堆排序與快排在計算topk問題上所用的時間是相等的。分析 對這個現象進行分析,首先快排的時間複雜度是o n log n 而對於堆排序分為兩個過程,第乙個過程是建堆過程,即下面 的get top...