illumina測序的一些注意事項

2021-10-07 21:05:37 字數 1540 閱讀 3856

在二代測序領域,illumina測序平台以其核心的三項技術(分別是鹼基末端可逆修飾、橋式pcr和邊合成變測序策略),獨步天下。充分發揮了其鹼基讀取精確、通量提高、測序長度也穩步提高至雙末端各300bp。但是,任何測序技術面對各種測序需求總是會有些許不足,大白話說就是:沒有哪項技術可以解決全部的問題。那麼,illumina測序有哪些問題是需要注意的呢?我們就來聊聊這個話題。

問題一、測序過程中必須鹼基平衡

所謂鹼基平衡,是指,測序晶元上完成成簇反應之後,一定面積內的不同分子簇,各個位置的鹼基a、t、g、c分布均勻。這樣才可以較好的完成訊號轉換。如若不然,那麼對於鹼基的判讀就會出現錯誤,從而導致測序質量值大幅度下降。

反應在測序文庫上,就是一次測序反應中,應該盡量多新增諸如基因組dna文庫,rna轉錄組文庫,而少摻入一些擴增子文庫。這裡的擴增子文庫是指類似16s/18s/its可變區文庫。如果實在湊不齊文庫,那麼就應該認為摻入大量的平衡鹼基文庫。包括phix文庫、基因組文庫等。同時,也可以盡量多摻入不同型別的擴增子文庫。或者,對擴增子文庫的barcode序列做一些錯位(spacer)設計,增加鹼基的平衡性。

上圖即是平衡文庫和非平衡文庫測序資料差別,其中鹼基不平衡文庫曲線非常糟糕,資料質量會很差。

問題二、讀取長度受限

儘管目前illumina的測序讀長已經達到雙末端300bp,但是想要進一步提高測序讀長,還是非常困難的。主要的原因在於,第一,擴增測序的酶活性需要進一步提高太難。目前illumina miseq測序,完成一次測序,需要耗時超過60小時,加上文庫混合時間,還會超出這個時間。60小時內能維持酶的活性已經非常不錯了,再要提高就比較難。第二,基於單次只測乙個鹼基的邊合成邊測序原理,要求對各個分子簇的反應時間要求一致。也就是各個分子簇必須同時進行反應。理想狀態當然是如此,但是實際pcr反應過程中,各個分子的反應時間還是不盡相同的。因此,會產生有的分子簇內的分子反應的快,有的慢的情況(這種現象被稱作phasing,一般和酶活有關)。導致的結果就是,乙個分子簇內的訊號顏色不一樣。那麼越到測序後期,其鹼基判讀就越不準確。因此想要提公升讀長,illumina的增長潛力非常有限。解決問題的最終辦法還是要靠長度長的三代測序技術。

來自網路。

上圖較好的反映了phasing現象

問題三、文庫長度受限

文庫長度的意思是指,含兩側測序接頭和插入目標片段,整個文庫的長度範圍不能過寬,一般建議在250bp-450bp之間比較好,超過600bp以上就會造成一些不利影響。主要是短片段和長片段一起測序的時候,短片段的擴增效率一般都高於長片段的,因此更容易測到序列,長一些的文庫就不容易測到序列,導致資料產出有偏差。另乙個原因是,如果文庫片段過短的話,該短片段測序到後期,就是要測接頭序列了,有的時候連線頭序列都測完了,那就沒有訊號了,後續會讀取一些假訊號,降低測序質量值。

了解了上述問題之後,可以對我們日常測序進行指導,規避一些不必要的麻煩,提高測序文庫質量,同時提高測序質量及效率。

參考資料:

C 一些注意的地方

1 vector記憶體分配策略 以最小的代價連續儲存,每當vector不得不分配新的儲存空間時,以加倍當前容量的分配策略實現重新分配 2 類 必須對任何const或引用型別成員以及沒有預設建構函式的類型別的任何成員使用初始化式 建構函式初始化列表。3 explicit 抑制由建構函式定義的隱式轉換,...

c string類的一些注意

c語言中的字串基本都是字元型陣列,並且總是以二進位制0作為結束符,c 中string隱藏了它所包含的字串行的物理表現,包含了資料容量及儲存位址的 內務處理 資訊。標準庫的string類提供了3個成員函式來從乙個string得到c型別的字元陣列 c str data copy p,n 1.c str ...

指標的一些注意點

指標是c語言最強大,最複雜的特性。在使用的時候一定要注意。1 在使用指標前 指對指標進行解引用 一定要對指標進行初始化。否則會發生段違例錯誤。如 int a a 12 從語言層面看,好似並沒有錯誤,但是a指標並沒有被初始化,從而無法找到該變數到底指向的是哪個位址,將12賦值給乙個未知位址會引發段違例...