目錄生物標誌物,即傳說中的biomarker,是一類可測量的,用來表徵疾病狀態的物質,通常用於表徵:
受試者工作特徵曲線(receiver operating characteristic,roc)是評估乙個生物標誌物的**效能的有用的圖形工具,指示乙個生物標誌物組區分兩個群組(如實驗組和對照組,疾病和健康)的能力。
如果把患病視為陽性,把健康視為陰性。敏感性(sensitivity)表示真陽性除以真陽性與假陰性之和,又稱為真陽性率,如下圖所示:
特異性(specificity)表示真陰性除以真陰性與假陽性之和,又稱為真陰性率,如下圖所示:
1-真陰性率=假陽性率,所以roc曲線橫軸是假陽性率,縱軸是真陽性率,曲線下的面積為auc值,通常介於0.5-1之間,面積越大**效果越好。
上圖是單變數的roc分析,針對單個代謝組分子或單組學資料。實際上,可以將多個代謝物或多個組學資料作為組合來進行**,稱之為多變數roc分析。不同模型**的結果也可以同時在一張圖中比較。
多變數roc分析主要是用於探尋最佳的生物標誌物組。通過選擇randomforest,svm和pls-da 等多元統計分類演算法,選擇不同的代謝物排序組合,反覆抽樣的構建分類模型,獲得最佳的生物標誌物組。
在多元roc分析中,選擇最佳的變數組合主要是通過重複隨機抽樣交叉驗證(cv)的演算法來識別變數重要性。在每次驗證中,三分之二(2/3)的樣本根據vip評分(plsda)、精度下降(隨機森林)或加權係數(線性支援向量機)來評價每個特徵的重要性。選擇排名前2,3,5,10,100(max)重要特徵用來建立分類/回歸模型,並在1/3的剩餘樣本上進行驗證。
如下圖:
上圖是基於pls-da 分類方法,變數重要性依據pls-da分析的vip值排序,分別選擇前2個,前3個,前5個,前10個,前20個和全部變數的模型的roc曲線和auc值。可以看出,圖中最佳的生物標誌物組是基於pls-da分析vip值排序的前2個代謝物組成的生物標誌物組。
驗證上述篩選出的生物標誌物組,或選擇特定的生物標誌物組,計算區分效果(auc)值。可以從構建的最佳生物標誌物組中進一步選擇樣本進行驗證,也可以手動選擇生物標誌物組進行分析。
如上例中篩選出的2個代謝物的為最佳生物標誌物組進行驗證下。
圖中cv表示經過100次互動驗證後的roc曲線;holdout 表示手動選擇測試集後計算得到的roc曲線,說明該生物標誌物組**效果良好。
關於單變數和多變數roc曲線分析的比較
多變數roc曲線是基於多元統計(svm、pls-da或隨機森林)的交叉驗證結果。而經典的單變數roc曲線是基於測試集中所有資料點內所有可能的截斷點的綜合效果。因此由交叉驗證的roc曲線得到的auc更適合**,而單變數roc計算的auc往往容易過擬合。換句話說,單變數roc可以被看作是特徵的區分「潛力」的乙個指標,而不是它的實際表現。
幾個可以進行roc分析的r包。
metaboanalyst也具有相應的分析模組。
ref:
代謝組學 1 代謝組學簡介
目錄代謝物 所有分子量小於1500da的小分子物質,包括醣類 核苷 有機酸 酮類化合物 多肽 氨基酸 有機胺類 醛類化合物 脂質 萜類 類固醇 生物鹼 小分子藥物等等。代謝組 乙個細胞 組織 器官中所有代謝物的集合。代謝組學 利用高通量的技術來鑑定和定量乙個細胞 組織或器官中所有小分子或代謝物的生命...
代謝組學實驗 質控與分析
目錄2.資料分析挖掘 1 專案流程 代謝組學分析的特點 專案流程 樣本製備 質譜儀分析 資料預處理 定量及統計分析 定性分析 生信及後續分析 2 非靶代謝質控 質譜儀訊號波動使非靶代謝訊號隨時間漂移。原因 訊號隨時間漂移或中途裝置維護會嚴重影響多元統計分析效果,如pca中樣品分布不均勻,存在異常值。...
代謝組學 3 資料分析
1.代謝物提取,一般要求每組至少10個樣 2.在所有提取好的樣本中取等量混合作為qc 3.qc樣本與實驗樣本穿插上機,開始十個qc,結尾三個qc,中間每十個樣本穿插乙個qc樣本 得到質譜譜圖資料經軟體處理後得到峰表。峰 式一般為 每行為乙個m z,每列為乙個樣本 數值表示該樣本中某個m z的訊號響應...