檔案分割
使用下面命令將srr分割開來。
fastq-dump --gzip --split-
3 srr3589956.sra; done
生成之後,結果如下:
[biochem@qcgate step3_hisat2]$ ls *
.gz -l
-rw-rw-r--
1 biochem biochem 1223462176 nov 1022:
13 srr3589956_1.fastq.gz
-rw-rw-r--
1 biochem biochem 1243288534 nov 1022:
13 srr3589956_2.fastq.gz
如果沒有–gzip 就不會自動生成.gz的壓縮檔案。帶這個引數就輸出gz的壓縮格式,好處是節省空間,而且比對軟體一般都支援。
–split-3
使用下面命令將sra檔案進行分割,一般分隔為兩份。也就是將雙端測序分為兩份,放在不同的檔案,但是對於一方有而一方沒有的reads會單獨放在乙個資料夾裡。
2023年11月11日 上午 晴(南昌)
(2) 比對檔案所在路徑:
/home/biochem/data/homosapiens/step3_hisat2/
(3) 比對結果檔案儲存路徑:
/home/biochem/data/homosapiens/step3_hisat2/aligned/
執行如下比對命令,生成比對結果檔案。
hisat2 -t -x /home/biochem/data/homosapiens/step1_rawdata/hg19_ref/genome -
1/home/biochem/data/homosapiens/step3_hisat2/srr3589956_1.fastq.gz -
2/home/biochem/data/homosapiens/step3_hisat2/srr3589956_2.fastq.gz -s /home/biochem/data/homosapiens/step3_hisat2/aligned/srr3589956.sam
-t 指定記錄執行時間。
-x 提示後面內容為參考基因組的索引檔案路徑。
/home/biochem/data/homosapiens/step1_rawdata/hg19_ref/ 指的是參考基因組索引檔案所在目錄。
genome指的是參考基因組索引「檔名」(不包括字尾的部分的檔名稱)。
-1 指定後面將進行的第一分隔檔案的比對。
/home/biochem/data/homosapiens/step3_hisat2/srr3589956_1.fastq.gz 要進行比對sra檔案的第一分隔檔案的路徑。
-2指定後面將進行的第二隔檔案的比對。
/home/biochem/data/homosapiens/step3_hisat2/srr3589956_2.fastq.gz 要進行比對sra檔案的第二分隔檔案的路徑。
-s 提示後面為比對結果輸出路徑
/home/biochem/data/homosapiens/step3_hisat2/aligned/srr3589956.sam 表示生成的比對結果存於srr3589956.sam檔名,並存於/home/biochem/data/homosapiens/step3_hisat2/aligned/資料夾下。
執行之後結果如下:
time loading forward index:00:
00:20time loading reference:00:
00:03multiseed full-index search:00:
26:3028856780 reads; of these:
28856780
(100.00
%) were paired; of these:
1838758
(6.37
%) aligned concordantly 0 times
24733251
(85.71
%) aligned concordantly exactly 1 time
2284771
(7.92
%) aligned concordantly >
1 times
----1838758 pairs aligned concordantly 0 times; of these:
90903
(4.94
%) aligned discordantly 1 time
----1747855 pairs aligned 0 times concordantly or discordantly; of these:
3495710 mates make up the pairs; of these:
2034758
(58.21
%) aligned 0 times
1221302
(34.94
%) aligned exactly 1 time
239650
(6.86
%) aligned >
1 times
96.47
% overall alignment rate
time searching:00:
26:35overall time:00:
26:55
[biochem@qcgate aligned]$ ls -l
total 15758288
-rw-rw-r--
1 biochem biochem 16136480585 nov 1111:
09 srr3589956.sam
顯示生成了srr3589956.sam檔案。
2023年11月11日 下午 晴(南昌)
此命令只單獨比對srr3589956,若要執行多個檔案,則可以使用vim新建srr.s**件,內容如下:
for i in 'seq 57 58'
do hisat2 -t -x /home/biochem/data/homosapiens/step1_rawdata/hg19_ref/genome -
1/home/biochem/data/homosapiens/step3_hisat2/srr35899$_1.fastq.gz -
2/home/biochem/data/homosapiens/step3_hisat2/srr35899$_2.fastq.gz -s /home/biochem/data/homosapiens/step3_hisat2/aligned/srr35899$
.sam
done
注意,新建的srr.s**件是不能直接執行的,因為新建的shell檔案預設只有讀和寫得許可權,因此需要首先新增執行的許可權,命令如下:
chmod +x srr.sh
這樣,srr.s**件就可以執行了,在命令列目錄下執行:
.
/srr.sh
即可開始執行多個檔案的比對。
linux系統下設定環境變數很多人不太理解它的設定的意義。舉個例子,比如想要任何目錄下執行可執行程式,那麼該可執行程式檔案的所在的目錄就要加到環境變數中,以便讓計算機自動搜尋到該程式所在的目錄,調出可執行檔案的程式來執行。通俗的說,設定系統能自動搜尋到的路徑目錄,就是設定環境變數。這個路徑目錄可以有很多,一般都是系統安裝的可執行的命令所在的路徑目錄。
這個語句時當前設定環境變數的方法。
export path="$path:/home/biochem/program/anaconda2/bin/"
$path: 表示之前的環境變數繼續保持。
/home/biochem/program/anaconda2/bin/ 冒號後的路徑是新新增的環境變數的路徑。
RNA seq分析流程
高通量測序知識 fastqc使用,相對應的r包fastqcr,rqc fastp biostrings包計算gc含量,q20等 library biostrings filepath system.file extdata s 1 sequence.txt package biostrings qd...
RNA seq 基本分析流程
easoncheng 高通量測序技術,就是二代測序,已經成為現代生物學研究的乙個較為常規的實驗手段。這一技術的發展極大地推動了基因組學,表觀基因組學以及翻譯組學的研究。rna seq 通過測定穩定狀態下的rna樣品的序列來對rna樣品進行研究,從而避免了許多之前研究手段的不足,比如象基因晶元或者 p...
RNA seq 3 學習筆記 序列對比
主要參考 chip詳細分析流程 序列比對 hisat2 1.需要建立乙個index檔案有兩種方法。為啥要這個index?需要把測序資料和這個參考基因組做對比,但是又不能直接和基因組做對比,不然哪兒跟哪兒可能區分不開,只能拿個簡化版的注釋檔案做對比。其實hisat2 buld在執行的時候也會自己尋找e...