轉錄組測序

2022-08-03 22:09:13 字數 2025 閱讀 2465

資料分析與解讀

1. data cleaning

從原始資料(raw data)到乾淨資料(clean data)的過程,有人翻譯成「資料清洗」,實在叫不習慣

illumina測序儀下機的資料通常為bcl格式,是將同乙個測序通道(lane)所有樣品的資料混雜在一起的,所以公司一般不會提供bcl檔案。測序公司使用illumina官方出品的bcl2fastq軟體,根據index序列分割轉換成每個樣品的fastq檔案,開啟長這樣:

原始資料沒法直接分析,是因為部分reads測序質量較低,可能會誤導後續結果,因此需要對低質量鹼基太多或n(未能識別的鹼基)太多的reads進行去除;此外,部分測序文庫的插入片段太短,導致測到兩側的接頭序列,這些序列接頭也需要從reads中去除。最後,我們也會對清洗前後的raw data和clean data進行評估,評估內容包括鹼基質量、序列長度、鹼基比例、gc含量、重複序列、kmers等

#常用軟體#

我以前都是用cutadapt + fastx-toolkit的組合,直到同事們給我推薦了trim galore,質量評估使用fastqc

1.5 #可選步驟# 核醣體rna(rrna)去除

2. 比對

如果不是很急或者只想知道已知轉錄本表達量,個人建議使用基因組比對的方法進行分析,理由如下:

① 轉錄組比對需要準確的已知轉錄本的序列,對於來自未知轉錄本(比如一些未被資料庫收錄的lncrna)或序列不準確的reads無法正確比對;

② 與上一條類似,轉錄組比對不能對轉錄本的可變剪接進行分析,資料庫中未收錄的剪接位點會被直接丟棄;

③ 由於同乙個基因存在不同的轉錄本,因此很多reads可以同時完美比對到多個轉錄本,reads的比對評分會偏低,可能被後續計算表達量的軟體捨棄,影響後續分析;

④ 由於與dna測序使用的參考序列不同,因此不利於rna和dna資料的整合分析。

此外,值得注意的是,rna測序並不能直接使用dna測序常用的bwa、bowtie等比對軟體,這是由於真核生物內含子的存在,導致測到的reads並不與基因組序列完全一致,因此需要使用tophat/hisat/star等專門為rna測序設計的軟體進行比對

比對結果會展示為bam/sam檔案,其中bam格式是sam格式的二進位制版本

bam檔案中每行代表一條reads的比對資訊,其中第一列是read的id,第二列為flag(包括是否雙端比對,比對位點是否唯一等資訊),第三列為比對的染色體,第四列為比對的起始位置,第六列為cigar值,代表比對的具體方式(例60m2d80m代表60個鹼基完美匹配+2個鹼基缺失+80個鹼基完美匹配)等等

#常用軟體#

基因組比對:

tophat2:可以說是最被公認的rna測序比對軟體(實際上是在dna比對軟體bowtie的基礎上做了乙個殼),相信很多做rna測序的同學都是看著tophat發表在nature protocol上的步驟一步步入門rna測序的;

hisat2:tophat2的非正式公升級版本(因為據說還會有tophat3),在tophat的演算法基礎了上做了大量的改進,而且克服了tophat最大的缺點——速度慢,nature protocol上同樣發表了操作流程;

star:encode計畫御用比對軟體,權威程度可以與tophat平起平坐,並且比對速度極快;

mapsplice:tcga使用的比對軟體,我自己沒用過;

rsem:rsem更像乙個軟體包而不是乙個比對軟體,能夠提供從比對到計算差異表達的所有步驟,由於不需要自己寫**串聯不同軟體生成的資料格式,因此用起來比較省時省力,值得注意的是,tcga使用mapsplice比對後再用rsem計算表達量,並沒有直接只用rsem原裝的bowtie的比對結果。

轉錄組比對:這型別的軟體我用的不多,最近嘗試過nature methods上面發表的salmon,能從clean reads直接算到表達量,優點是,快,非常快。然而這個軟體連bam檔案都沒生成,雖然只是定量的話bam檔案的確沒什麼用就是了…

轉錄組測序

轉錄組測序 轉錄組測序分析可以分為referring sequencing有參轉錄組分析和de novo無參轉錄組分析。有參無參的意思是,有 無參考基因組。1.獲得測序資料,fastq格式,稱之為raw data。fastq檔案說明 每四行為乙個單元。第一行 序列名稱 第二行 序列的鹼基 第三行 序...

轉錄組測序流程

轉錄組測序 轉錄組測序分析可以分為referring sequencing有參轉錄組分析和de novo無參轉錄組分析。有參無參的意思是,有 無參考基因組。1.獲得測序資料,fastq格式,稱之為raw data。fastq檔案說明 每四行為乙個單元。第一行 序列名稱 第二行 序列的鹼基 第三行 序...

使用RSEM進行轉錄組測序的差異表達分析

仍然是兩年前的筆記 1.prepare reference 如果用rsem對比對後的bam進行轉錄本定量,則在比對過程中要確保比對用到的索引是由rsem prepare reference產生的。software rsem rsem prepare reference transcript to g...