我們在這裡使用的是hisat2作為構建參考基因組和對比的工具的
conda install hisat2
hisat2-build ***.dna.primary_assembly.fa /data/genome 1>hisat2-build.log 2>
&1
其中:
***.dna.primary_assembly.fa 是指我們的基因組序列
/data/genome 是指我們生成的參考基因組放置的位置和字首
1>hisat2-build.log 2>&1 是指生成的日誌檔案和報錯檔案存入hisat2-build.log裡面
對比到參考基因組我們有兩種情況,單末端測序和雙末端測序
我們分別來看一下,單末端檔案和雙末端檔案應該怎麼處理
hisat2 --new-summary -p 2 -x ../data/genome -u ***.fq.gz -s ***.sam --rna-strandness r 1>***.log 2>
&1
其中
-p 是指執行緒數,可以根據具體條件自己調節
-x 是指我們之前構建的參考基因組的位置和字首
-u 是指在單末端測序中產生的測序檔案,可以使用gz壓縮的fasta檔案也可以使用解壓後的fasta檔案
-s 是指輸出檔案的名字和格式,一般使用sam格式
–rna-strandness 是指鏈特異性測序,在單末端測序中使用 r 引數
hisat2 --new-summary -p 2 -x ../ref/genome -1 ***.fq.gz_1 -2 ***.fq.gz_2 -s ***.sam --rna-strandness rf 1>***.log 2>
&1
其中
-p 是指執行緒數,可以根據具體條件自己調節
-x 是指我們之前構建的參考基因組的位置和字首
-1 是指樣本的r1檔案
-2 是指樣本的r2檔案
-s 是指輸出檔案的名字和格式,一般使用sam格式
–rna-strandness 是指鏈特異性測序,在單末端測序中使用 rf 引數
我們可以發現,單末端和雙末端測序的區別就在於指定輸入的測序檔案不同,和鏈特異性測序的引數不同,其他地方完全一樣。
我們要將sam檔案轉換成bam檔案,降低檔案大小,對系統和後面的分析來說,都會輕鬆一些
在這裡,我們使用的是samtools。老樣子,還是使用conda安裝
conda insatll samtools
然後我們就可以直接使用samtool了
samtools sort -o ***.bam ***.sam &
直接用samtools sort 就可以把sam檔案轉換為bam檔案並排序,對了在後面加 & 是為了能夠並行
生成bam index是為了我們在i**上面可以視覺化我們的對比結果
同樣的,我們還是使用samtools
samtools index an12_11.bam &
好了,到此為止,對比就結束了 轉錄組分析 轉錄組分析 使用STAR進行比對
通過二代測序我們可以獲得150bp左右的reads,如果想要知道reads是從哪個轉錄本上測出來的,就需要將reads比對到參考基因組上。比對的演算法很複雜,但簡單理解就是看reads與基因組上哪個區域一致。wget c 解壓 star tar xvzf 2.7.3a.tar.gz 執行 star ...
踏出第一步
我是乙個比較內向的人,或許應該說有一點自卑的傾向。因為生活中的一些事情,總是不斷的打擊我的自信心,讓我產生一種感覺 我缺乏能力,是乙個無用的人。我想有過這種經歷的,肯定不只我乙個人。人的信心有時候是很脆弱的,兩三次的失敗就可能讓其消失殆盡,然後你就覺得,反正我也做不出什麼事情來,乾脆就這樣混著吧,於...
邁出第一步
我,乙個程式小白,不是為了熱愛而走上程式設計之路。就這樣稀里糊塗的度過了兩年,期間,自己有為找不出那乙個個errors煩躁,也有為成功編譯後而獲得正確結果的那種喜悅。如今是真的想去改變現狀,想去提公升自己,想不負剩餘的兩年時光,不負你,不負我!對於今後的學習之路的想法,首先基礎的語言學習,其次資料結...