圖1、細胞亞型的鑑定及分析(stegle et al. nature reviews | genetics, 2015)
隨著單細胞測序技術的發展,每個研究或實驗中測定的細胞數量在顯著增加。現在很多單細胞研究中,少則產生幾百,多則產生幾十萬的細胞數量,甚至更多。其中,細胞亞型(cell subtype or cell subpopulations)的鑑定是單細胞測序技術乙個非常重要的基礎應用。但由於單細胞測序資料通常涉及到很多細胞,而每個細胞中的基因數量又可能是幾萬個,所以,單細胞測序資料是乙個高維的複雜資料。
圖2、基於單細胞測序資料的細胞亞型鑑定方法總結(andrews and hemberg, 2018, mol. aspects med.)
1、dimensionality reduction(降維)。降維方法通常是把高維資料通過優化保留原始資料中的關鍵特徵後投射到低維空間,從而可以通過二維或三維的形式把資料展示出來。
常用的降維方法有:
1)pca(principle component analysis),主成分分析,是一種線性的降維方法;
2)t-sne(t-distributed stochastic neighbor embedding),是一種非線性的降維方法;
圖3、pca、dm(diffusion maps)、t-sne(perplexity=10 (c) 和perplexity=50 (d))聚類示意圖 (andrews and hemberg, 2018, mol. aspects med.)
2、feature selection(特徵選擇),主要是通過去除資訊含量少的基因而保留資訊含量最多的基因來降低資料的維度。
常用的feature selection的方法有:
1)基於先驗資訊的方法(如已知細胞的亞型)。比如通過scde軟體鑑定已知不同細胞亞型間的差異表達基因,然後再基於差異表達基因來聚類分析等。
2)非監督方法。又可細分為:
(i)基於highly variable genes (hvg) ;
(ii)基於spike-in,如sclvm (buettner et al., 2015)和basics (vallejos et al., 2015)等;
(iii)基於 dropout,如m3drop (andrews and hemberg, 2018)。
1、監督的方法。比如基於特定細胞亞型的已知marker基因來聚類分析。
2、非監督的方法(unsupervised clustering)。又可細分為:
(i)k-means,通常可結合pca和t-sne等來使用;
(ii)hierarchical clustering,執行速度比k-means要慢;
(iii)density-based clustering,需要基於大樣本才能提高聚類的精度;
(iv)graph-based clustering,是density-based clustering的乙個延伸,可以應用於上百萬的細胞數量。
圖4、一些比較流行的單細胞亞型鑑定方法(chen et al. frontiers in genetics, 2019)
***不同細胞亞型鑑定聚類方法執行時間和具體效能的比較***
圖5、不同聚類方法的執行時間比較(duò et al. f1000research, 2018)
圖6、不同聚類方法執行時間(橫軸)和效能(縱軸)的比較(duò et al. f1000research, 2018)
單細胞測序技術及應用進展
發表於 基因組學與應用生物學,2015 年,第34 卷,第5 期,第902 908 頁 本文講了什麼?細胞是生命的單位,然而大多數的人類基因組 癌症或其它研究仍然是通過從多個細胞中抽提dna 來進行測序,這忽略了細胞間的差異對於控制基因表達 細胞行為的影響,實驗結果往往表示的是細胞群體中訊號表達的均...
單細胞轉錄組測序技術及各類資料分析方法總結
自從2009年單細胞轉錄組測序 single cell rna seq,scrna seq 技術首次問世,至今已經有幾十種不同的scrna seq技術相繼被開發出來。在過去的十年裡,單細胞轉錄組測序技術得到了蓬勃的發展,從而使得可在單細胞水平揭示全基因組範圍內所有基因的表達情況,可以更精準的開展細胞...
好用的疾病相關單細胞資料庫,及使用方法
對於對於測序而言,單細胞測序算是很火的乙個測序技術了。簡單來說單細胞測序技術的,就是對每乙個細胞來進行測序。相較於之前的rna seq而言,我們其實是對某一塊組織所有的rna進行檢測,由於一塊組織裡面有好多的細胞,而且這些細胞也不一定全是腫瘤細胞,所以說我們對於這些細胞的測序獲得的基因表達的結果,有...