Iso seq 必備基礎

2021-09-07 14:37:21 字數 2129 閱讀 8618

iso-seq , 全稱叫做 isoform-sequencing, 是 pacbio 公司對自己開發的轉錄本測序技術的規範化命名;是利用三代測序長讀長的特點,不打斷轉錄本,直接測序,從而得到全長轉錄本的一種測序技術。

對於iso-seq 的分析而言,必須掌握以下幾個基本概念:

1)roi

了解過三代測序資料分析的人,對於ccs 環形一致性序列的概念肯定不會陌生,在iso-seq中,提出了比ccs 更加靈活的乙個概念:roi

roi , 全稱 reads of insert,可以理解為插入片段,首先看下三代測序文庫構建階段的reads示意圖:

對於上述的文庫片段,測序產生的reads 示意圖如下:

由於是乙個環狀分子, 隨著測序反應的進行,會迴圈測序;如果把插入片段的正負鏈都測了一次,就做1個full pass;

對於ccs 而言,要求至少有2個full pass , 才能去生成ccs  reads; 三代測序的特點就是讀長很長,可以達到十幾kb, 對於短的插入片段而言,ccs這樣定義當然沒有問題,但是對於全長轉錄本

而言,轉錄本長度很長,比如轉錄本長度1kb, 讀長3kb, 此時在乙個零模波導孔(zmw)中測序的reads 就不可能達到2個full pass , 也就產生不了ccs reads, 為了解決這個問題,提高reads的利用率,提出了roi 的概念,roi 指的就是插入片段,上圖測序reads 產生的roi 如下:

roi 不要求滿足2個full pass, 相對ccs 而言,更加適合全長轉錄本的分析;

這種序列是由於文庫製備階段,adapter 序列錯誤的將兩條轉錄本的序列鏈結構成了乙個環狀分子,這個和adapter 濃度有關,通常這種reads 產生的比例很少,小於0.5%, 在後續的分析中,這部分reads 需要去除

在pcr 反應中,由於不完全延伸的產物作為了下次擴增反應的引物,導致出現嵌合體序列,直觀上看,就是pcr產物**於兩條或者多條reads;

pcr 產生的嵌合體序列,在pcr 反應體系中,這種序列是不可避免的,大約有3%的比例,在後續的分析過程中,可以借助軟體去除這部分reads;

3) fl reads

fl , full-length reads, 全長轉錄本

從raw data 到 roi , 在從roi 去除  artifacts reads 之後,我們就得到了用於後續分析的clean reads;

clean reads 就已經是轉錄本的序列了,我們首先看一下clean reads 當中,哪些是全長轉錄本;哪些不是全長轉錄本,這個操作就是分類,classify

全長轉錄本的示意圖如下:

對於全長轉錄本而言,其roi reads 中包含5『 primer 和 3『 primer; 而且會出現polya 為結構;(polya 針對mrna和部分lncrna)

對於不同大小的文庫,其全長轉錄本的比例也不同:

可以看到,文庫片段越長,全長轉錄本的比例越低;

4) consensus transcript isoforms

一致性轉錄本序列,乙個zmw 產生乙個轉錄本的reads, 肯定會有冗餘的reads 出現,這是通過聚類(cluster)的方式,就全長轉錄本序列進行聚類,可以得到一致性的轉錄本序列;

c 基礎必備

引入using system.collections 陣列跟陣列集合的區別 1陣列 長度不可變 型別不可變 2陣列集合 長度可變 型別可變 arraylist list newarraylist list.add 1 list.add login list.add 3.1415 list.add a...

Docker基礎必備

1.安裝步驟 在centos 7上安裝docker環境 2.預設安裝目錄 3.啟動docker服務 4.映象 檢視映象 建立映象 dockerfile 刪除映象 執行img 5.容器 退出容器 進入容器 檢視容器 重新命名容器 啟動容器 停止容器 刪除容器 殺死容器 注意 6.dockerfile ...

前端必備Linux基礎

利用 cmder ssh root 192.168.x.x第一次登入 記得儲存指紋檔案 代表 home目錄 之前是當前登入使用者名稱 之後是伺服器名字 作業系統核心提供的api 排程 程序和執行緒 乙個程序裡面至少有乙個執行緒 非對稱加密 生成金鑰對ssh keygen t rsa c 你自己的名字...