RNA seq 基本分析流程

2021-06-20 22:13:13 字數 4131 閱讀 1682

easoncheng

高通量測序技術,就是二代測序,已經成為現代生物學研究的乙個較為常規的實驗手段。這一技術的發展極大地推動了基因組學,表觀基因組學以及翻譯組學的研究。rna-seq 通過測定穩定狀態下的rna樣品的序列來對rna樣品進行研究,從而避免了許多之前研究手段的不足,比如象基因晶元或者 pcr 就需要背景知識。而且 rna-seq 還可以觸及以前無法研究的領域,比如複雜結構的轉錄體。

rna-seq可以應用於以下幾個方面的研究,1. snps;2. novel transcripts;3. alternative splicing;4. rna editing。但歸根結底,rna-seq最主要的分析還是篩選差異基因。

常用的rna-seq操作平台有illumina ga/ hiseq, solid 還有roche 454。它們都是提取rna後,純化,打碎,逆轉錄成cdna,然後測序。測序的結果被稱為short reads。通常乙個reads的長度為25-300bp之間。如果測序只測一端可能會帶來比對時的困難,於是這些操作平台提供了兩端都測的辦法,這樣的結果成對出現,中間有一定的間隔,但是因為測序長度一下子提高了一倍,所以比對會精準很多。人們把這種測序結果稱為』paired-end』 reads。一般來講,測序結果會直接轉換成一行一行的由字母組成的短序列,可以是fasta,fastq等不同格式。 

然而,這一技術產生的海量資料分析卻給生物學家帶來了難題。乙個測序的結果檔案少則幾gb,多則幾十gb,單獨對比拼接,就會用去幾個小時,而後再得出差異表達的結果,其耗時耗力,並非實驗生物學家可以應付得了的。於是生物資訊學的研究人員努力做出一些軟體,以降低結果分析的難度。但是,即使這樣,還是必須對分析過程有個較為細緻地了解,才能正確地使用這些軟體,從而得到比較接近事實的結果。

一般的來講,rna-seq後de的工作流程是這樣的(圖1),首先,將短序對映到基因組相應的位置上去,其次,對對映的結果進行基因水平,外顯子水平,以及轉錄水平的拼接,而後對結果進行資料統計,標準化之後生成表達水平報告檔案,最後由生物學者依據系統生物學相關知識,來對資料結果進行分析。

rna-seq分析工作流程

不同步驟涉汲的軟體和方法:

分析步驟

方法軟體

general aligner

gmap/gsnap

bfast

bowtie

cloudburst

gnumap

maq/bwa

perm

rzaers

m***st/mrsfast

soap/soap2

shrimp

de novo annotator

splicemap

soapals

g-mo.r-se

tophat

splitseek

de novo transcript assembler

qases

mira

summarization

isoform-based

cufflinks

alexa-seq

gene-based

count exons only

exon junction libraries

normalization

library size

erange

tmm: trimmed mean of m-values

edger

upper quartile

myrna

differential expression

poisson glm (generalized linear model)

degseq

myrna

negative binomial

edger

deseq

bayseq

systems biology

gene ontology analysis

goseq

第一步的工作是alignment。對於rna-seq 的 alignment,從來都不是一件容易的事情。其難點如下:

沒有很好的比對模板。現在的比對模板都是基因組模板,而不是真正的轉錄組模板,也就是說,這對本來就不是很長的短序來說,它很有可能是界於兩個 exon之間。我們在比對junction的時候,一般還是假設它如果沒能在基因組模板中找到合適的位置的時候,才考慮它是否是界於junction上。這種人為的假設可能並不準確。

snps,鹼基插入,刪除,錯配,或者質量不高的測序結果,從模板至比對序列本身,都存在著比基因比對更為複雜的問題。

reads 可能會有多個100%的匹配位點。

有些基因組可能需要龐大的記憶體空間。

為了解決最後乙個問題,人們使用了很多辦法,但基本上都會基於事先建立的引索庫。即所謂「啟發式」比對(heuristic match)。首先使用一定長度的(通常是11個鹼基)的序列做為索引用的關鍵字,在匹配這一索引字之後,就很大程度地縮小了其需要匹配的模板範圍。但是這一辦法的問題在於不容易解決問題2中的空格,錯配問題。所以在很多軟體使用時,會要求人工確認高保真區,以及最高允許2-3個錯配。

現在比較快的「啟發式」比對主要有兩種演算法,一種是雜湊表(hash table),一種是bw壓縮轉換(burrows wheeler transform, bwt)。前者速度快,但是對記憶體要求比後者要高。

對於問題3,一般而言,大部分軟體使用的辦法是只保留乙個匹配位點,其中,有些是只保留第乙個匹配位點,有些是按照概率分布選取保留的位點。當然,前面已經提到過,可以使用paired-end read來盡量避免問題3的出現。

對於問題1,可以使用外顯子庫來確定junction reads。有兩種辦法,一種是依靠已知的外顯子庫來構建,另一種辦法就是依據已經匹配好的短序來構建外顯子庫(de novo assembly of transcriptome)。後者的不足是運算量大,對測序覆蓋範圍要求高,最好是使用paired-end reads。

這一步,主要是基本於不同水平(外顯子水平,轉錄水平,或者基因水平)進行統計。最簡單的辦法就是統計落在每個外顯上的 reads 數。但是有研究表明,很多(可能超過15%)的 reads 會落在外顯子兩側,這會影響統計的結果。另一種辦法就是統會落在內顯子區域的 reads 數。

標準化對於樣品內及樣品間的比較而言是非常重要的。標準化被分為兩類,樣品內及樣品間(between- and within-library)。

而對於樣品間標準化,最簡單而直接的辦法使用 reads 總數來平衡表達量。然而 reads 總數受測序深度的干擾,而且單個基因的短序數與實際的表達量並不一定會呈線性比較關係。一些研究者推薦使用 quantile normlization,但是有研究說這一辦法並沒有實際的價值。還有提出使用對數分布法則(power law distributions)來進行樣品間標準化。但沒有研究對這一處理方式進行驗證。

差異表達分析的最終目的是篩選差異表達的基因(外顯子等等)。最終的結果顯示一般來說是**化的,這一**按照一定的規則排序,讓人們能夠盡可能簡單地拿到想要的結果。

由於 rna-seq 結果的離散性,人們一般都會使用統計模型來擬合實驗得到的結果。一般而言,rna-seq的結果是比較附合伯松分布 (poisson distribution)的。這一結果得到了單通道illumina ga測序結果的實驗驗證。但是,伯松分布分析結果常常在多組重複的樣品間帶來較高的假陽性,因為它低估了生物取樣的樣品間誤差。所以rna-seq如何設定重複是乙個很重要的問題。為了平衡重複樣品所帶來的誤差,人們使用了serial analysis of gene expression (sage) data。

現有的軟體一般都是針對較為簡單的實驗設計的。而對於複雜的實驗設計,比如說成對樣品,時間依賴樣品等等,還沒有專門的,較好的解決方案。大多數都使用edger的線性模型來進行分析。

簡單地講,前景是廣闊的,但目前為止手段還是比較有限的,基本上就是go分析

from rna-seq reads to differential expression, oshlack et al. genome biology 2010.

<

2023年2月

>日一

二三四五

六272829

303112

3456

78910

1112

1314

1516

1718

1920

2122

2324

2526

272812

3456

789

RNA seq分析流程

高通量測序知識 fastqc使用,相對應的r包fastqcr,rqc fastp biostrings包計算gc含量,q20等 library biostrings filepath system.file extdata s 1 sequence.txt package biostrings qd...

RNA seq的典型流程(protocol)

一 rna的分離 從新鮮的或者是冷凍的細胞或組織樣本中分離rna,一般情況下,樣品會被dna汙染。因此,在製備文庫之前,會使用dna酶 降解dna 降解rna樣品中的dna汙染。二 rna的質量檢查 在後續分析的時候也有質控這一步,不過是從測序質量這個層面的質量 在製備文庫之前,要在rna降解,純度...

RNA Seq分析筆記(2)

檔案分割 使用下面命令將srr分割開來。fastq dump gzip split 3 srr3589956.sra done生成之後,結果如下 biochem qcgate step3 hisat2 ls gz l rw rw r 1 biochem biochem 1223462176 nov ...