gmap最早用於講est/cdna序列比對到參考基因組上,可以用於基因組結構注釋。後來高通量測序時代,又開發了gsnap支援高通量資料比對,這篇文章主要介紹gmap,畢竟高通量轉錄組資料比對大家更喜歡用star, hista2等軟體。
下面是我原始碼安裝的**
wget
tar xf gmap-gsnap-2018-07-04.tar.gz
cd gmap-2018-07-04/
./configure --prefix=$home/opt/biosoft/gmap
make -j 20
如下步驟假設你有乙個物種的基因組序列和對應的cds序列,分別命名為"reference.fa"和"cds.fa"
gmap/gsnap對fasta檔案中每個記錄下的序列的長度有一定限制, 每一條不能超過4g, 能應付的了大部分物種了。
構建索引分為兩種情況考慮,第一種是乙個fasta檔案包含所有的序列
~/opt/biosoft/gmap/bin/gmap_build -d reference reference.fa
~/opt/biosoft/gmap/bin/gmap_build -d reference chr1.fa chr2.fa chr3.fa ...
注: 這裡的-d
表示資料k庫的名字,預設把索引存放在gmap安裝路徑下的share裡,可以用-d
更改.此外還有乙個引數-k
用於設定k-mer的長度, 預設是15, 理論上只有大於4gb基因組才會有兩條一摸一樣的15bp序列(當然是完全隨機情況下)。
建立完索引之後就可以將已有的cds或者est序列和參考基因組序列進行比較。
~/opt/biosoft/gmap/bin/gmap -t 10 -d reference -f gff3_gene cds.fa > cds_gene.gff3
其中-t
設定執行緒數,-d
表示參考基因組資料庫的名字, 都是常規引數。我比較感興趣的引數是如何將序列輸出成gff格式. gmap允許多種格式的輸出,比如說-s
只看聯配的總體情況,而-a
會顯示每個比對上序列的聯配情況, 還可以輸出蛋白序列(-p)或者是genomic序列(-e). 但是做結構注釋要的gff檔案,引數就是-f gff3_gene
,-f gff3_match_cdna
,-f gff3_match_est
。
要想對乙個軟體有更好的認識,最好還是看看他們文章是怎麼說的。
full text, thomas d. wu and colin k. watanabe
fast and snp-tolerant detection of complex variants and splicing in short reads
bioinformatics 2010 26:873-881 abstract
full text, thomas d. wu and serban nacu
如何使用GMAP GSNAP進行轉錄組序列比對
gmap最早用於講est cdna序列比對到參考基因組上,可以用於基因組結構注釋。後來高通量測序時代,又開發了gsnap支援高通量資料比對,這篇文章主要介紹gmap,畢竟高通量轉錄組資料比對大家更喜歡用star,hista2等軟體。下面是我原始碼安裝的 wget tar xf gmap gsnap ...
如何使用svn進行merge
前提需求 在trunk上進行了若干個修改,想將這些修改分別merge到另外乙個branch上,但不包括其他同事在trunk的修改,假設已經知道在trunk提交時候的revision是123與234 step 1 檢查trunk上的difference,此步驟可選,如果你確定知道修改的內容是怎樣的 s...
如何使用TestFlight進行Beta測試
在2014年的蘋果全球開發者大會上,蘋果宣布他們把testflight整合進了ios 8的開發套件中。這樣做的目標是讓開發人員多了一種安裝beta測試程式的方法,並使整個過程更加容易。而實際上,testflight作為乙個beta測試的平台,在這之前已經出現了,而且可以同時支援ios和android...