可以用conda
安裝
收集mask資訊
為了遮蔽簡單重複序列的干擾,需要收集mask資訊。
核酸序列
演算法有windomasker和dustmasker兩種。
此處用的是dustmasker.
dustmasker -in genome.fasta -infmt fasta -parse_seqids -outfmt maskinfo_asn1_bin -out dust.asnb
-in:輸入檔案
-infmt: 輸入檔案格式
-parse_seqids:按序列id解析,此外用了,下面也要用,保持一致
-outfmt:輸出檔案格式
-out:輸出檔名
蛋白序列
segmasker -in peptide.fasta -infmt fasta -parse_seqids -outfmt maskinfo_asn1_bin -out peptide_seg.asnb > seg.log 2>&1 &
建立本地資料庫makeblastdb -in genome.fasta -input_type fasta -dbtype nucl -parse_seqids -mask_data dust.asnb -out genome
makeblastdb -in peptide.fasta -input_type fasta -dbtype prot -parse_seqids -mask_data peptide_seg.asnb -out peptide
檢視資料庫資訊blastdbcmd -db blastdatabse -info
megablast 是blastn的乙個功能,相比於經典balstn更快.
缺點是megablast只適合找相似度較高的序列(一般90%以上),可以用於物種內部或分歧不太大的物種間比對。
序列相似性不高的序列可以使用dc-megablast
(discontiguous-blast),適於70%以上相似度的序列。
使用index可以讓megablast更快,特別適合1m以下的序列比對,缺點是index檔案比較大,是blast庫的4倍,word size
必須至少16以上,dc-megablast
不支援。
建立megablast專用的index
nohup makembindex -iformat blastdb -input hau1.1_chr &
使用
-use_index true
1. 檢視mask演算法id
之前的masked資訊並不會預設使用,需要手動加入引數-db_soft_mask 演算法id
或者`-db_hard_mask 演算法id。
blastdbcmd -db genome -info
database: genome.fasta
2,190 sequences; 2,348,137,562 total bases
date: mar 29, 2019 9:50 pm longest sequence: 124,056,332 bases
algorithm id algorithm name algorithm options
11 dust window=64; level=20; linker=1
volumes:
/genome
可以看到演算法id:11,演算法名字:dust
另外,windowmasker的演算法id可能是:30
2. 使用megablast比對,加入masked資訊和index
blastn -query test.txt -task megablast -db_soft_mask 11 -use_index true -db genome -outfmt 7 -out test.out -num_threads 20
0 = pairwise
比對到結果分別顯示
比對到的結果一起顯示
不省略正確比對鹼基
同格式1相似
4 = flat query-anchored no identities
同格式2相似
5 = blast xml
xml格式
6 = tabular
製表符分隔格式
與格式6相比,加了注釋行
csv格式
11 = blast archive (asn.1),
12 = seqalign (json),
13 = multiple-file blast json,
14 = multiple-file blast xml2,
15 = single-file blast json,
16 = single-file blast xml2,
17 = sequence alignment/map (sam),
18 = organism report
blast 安裝及簡單使用
wget tar zxvf ncbi blast 2.9.0 src.tar.gz cd ncbi blast 2.9.0 src configure make make installblast 的一般用法如下 格式化資料庫 makeblastdb in db.fasta dbtype prot ...
blast的本地簡單執行
一 軟體配置 curl o tar zxvf ncbi blast 2.6.0 x64 linux.tar.gz echo export path path src ncbi blast 2.6.0 bin bashrc source bashrc 二 序列比對 序列比對,顧名思義需要參考序列庫,以...
本地BLAST的使用
psi blast psi blast是由blastpgp命令實現的,它的大部分引數是與blastall一致的,只有少數與迭代檢索相關的選項是特別的 j 最大迭代檢索的次數,預設值1,即等同與在blastall中所使用blastp程式 h 在每輪檢索後構建新的打分矩陣時所選擇的序列的期望值 e va...