soapfuse是華大開發的從 paired-end rna-seq 資料全基因組範圍內探測融合轉錄本的開放性工具,其以perl語言為基礎,應用一種改進的部分窮舉法,構建乙個用於探測融合事件的資料庫,通過層層過濾,來鑑定融合轉錄本,以方便對人類rna-seq資料的分析。通過對資料庫的合理構建,soapfuse也能用於其他物種rna-seq資料的分析。相比於目前開發出來的其他20個用於探測融合轉錄本的工具,soapfuse有以下優點:
軟體本身是為人類rna-seq資料分析所用,但在我的研究中想將其用於黃瓜(cucumis sativus l.)轉錄組的分析,故本文中將以人類及黃瓜兩個物種對soapfuse的使用進行介紹。
soapfuse軟體只能在64位的linux系統下操作,並需要至少5.8.5版本的perl支援。
$ cd /path_where_you_put_the_tarball/soapfuse-vx.x/
由於soapfuse特殊的比對與過濾方法,在正式執行軟體進行融合轉錄本的探測前,需要準備如下檔案:
高通量測序後得到的轉錄本資訊,為fastq格式。由於soapfuse識別融合轉錄本的功能只針對雙末端rna-seq後的資料,所以rna-seq資料集的結構如下:
其中:
- 第一層為全部rna-seq資料所在資料夾;
- 第二層為不同樣本的rna-seq資料,資料夾名為樣本id;
- 第三層為測序時構建的不同文庫,若只有乙個文庫資訊,則不作區分,但此層目錄必須存在;
- 最後一層為對同一樣本、同一文庫的rna-seq雙末端資料進行的不同執行,可以有引數上的差異,同一次執行需要兩個fastq檔案,不需解壓縮。
由於soapfuse軟體執行的標準化,rna-seq資料必須以上述檔案目錄結構存於總測序資訊目錄下。
soapfuse的執行需要乙個樣本列表檔案,儲存所需執行的rna-seq資料資訊,其主要格式如下:12
34[sample_id]
[sequence_library_id]
[run_id]
[read_length]
樣本列表共四列,其中第一列為樣本id,第二列為序列文庫id,第三列為執行id,最後一列為雙末端測序讀長資訊,其內容需要與上述rna-seq資料目錄結構一致。
同一樣本測序結果存於乙個樣本列表中,各個樣本列表並行處理。但當對癌症轉錄本進行分析時,同一病人的正常組織與癌變組織的rna-seq資料可存於同一樣本列表中,以便對照分析。
soapfuse的執行需要引用乙個配置檔案,檢視方式如下:
$ cd /path_where_you_put_the_package/soapfuse-vx.x/config/
$ less -s config.txt
配置檔案的內容很容易理解,主要以變數=值的方式進行修改。
配置檔案中一些縮寫資訊需要注意:
-『db』– database,資料庫資訊
-『pg』– programs,程式資訊
-『ps』– pipeline steps,管道執行步驟資訊
-『pd』– pipeline directories,管道目錄資訊
-『pa』– parameters,引數資訊
以下幾個引數為必須修改項,需留意:
1. 設定資料庫所在目錄
db_db_dir = /database_dir/
2. 設定程式執行指令碼所在目錄
pg_pg_dir = /tool_dir/source/bin
3. 設定管道目錄
ps_ps_dir = /tool_dir/source
4. 設定輸出目錄
pd_all_out = /out_directory/
5. 設定rna-seq資料檔案字尾
pa_all_fq_postfix = postfix
對資料庫的構建是執行soapfuse最為關鍵的一步,需要五個必需檔案。軟體作者對於構建資料庫的介紹為construct_soapfuse_database
$ cd /path_where_you_put_the_package/soapfuse-vx
.x/source/
$ perl soapfuse-s00
-generate_soapfuse_database
.pl -h
$ perl soapfuse-s00
-generate_soapfuse_database
.pl
全基因組參考序列 (-wg)
基因注釋檔案 (gtf)
soapfuse只識別gtf格式的基因注釋檔案,如果所分析物種只發布了gff格式的注釋檔案,則需要進行格式的轉換。
染色體核型資訊 (-cbd)
對於模式生物而言,基因組分析較多,存在染色體帶型資訊的,可設定為染色體帶型;對於黃瓜這種非模式生物、研究較少的物種,可只提供染色體核型資訊,格式如下:12
345chrom
start position
end position
idclass
第一列為染色體號,第二列為核型或帶型的起始位點,第三例為終止位點,第四列為序列號,第五列為類別資訊。
基因家族資料庫檔案 (-gf)
基因組參考序列與基因注釋檔案中染色體標記的對應關係檔案 (-rft)在軟體目錄下存在soapfuse-run.pl指令碼,為軟體的執行程式。
$ perl soapfuse-run
.pl -c
-fd>
-l-o
[options]
轉錄組測序
轉錄組測序 轉錄組測序分析可以分為referring sequencing有參轉錄組分析和de novo無參轉錄組分析。有參無參的意思是,有 無參考基因組。1.獲得測序資料,fastq格式,稱之為raw data。fastq檔案說明 每四行為乙個單元。第一行 序列名稱 第二行 序列的鹼基 第三行 序...
轉錄組測序
資料分析與解讀 1.data cleaning 從原始資料 raw data 到乾淨資料 clean data 的過程,有人翻譯成 資料清洗 實在叫不習慣 illumina測序儀下機的資料通常為bcl格式,是將同乙個測序通道 lane 所有樣品的資料混雜在一起的,所以公司一般不會提供bcl檔案。測序...
轉錄與翻譯
gene structure transcription 1.dna上有轉錄啟動位點和終止位點,rna聚合酶結合到上面,得到rna primary transcript 2.rna被切掉內含子,加上5帽子和3尾巴,得到成熟mrna rna seq研究物件 3.mrna到核外,翻譯成蛋白。可變剪下 可...