提高非引數檢驗功效的潛在方法

2021-09-29 16:54:51 字數 2451 閱讀 7946

有**(見參考資料)指出,某些小樣本情況下kolmogorov–smirnov檢驗可能優於wilcoxon檢驗。嚴格來說,wilcoxon檢驗和ks檢驗的功效對比需多次重複模擬進行評估,此處不再贅述(見參考資料的**),本文僅以乙個簡單的典型示例呈現。筆者根據wilcoxon的特點和ks檢驗的優勢(對分布敏感),構造了如下的資料:

a組中12個樣本的x分子表達量為:1,6,12,18,19,20,22,23,24,26,27,28

b組中13個樣本的x分子表達量為:2,3,4,5,7,8,9,10,11,13,21,25,29

視覺化如下:

直觀來看,兩組應當是有顯著差異的。

分別檢驗兩組資料的正態性,發現符合正態分佈。因此使用t 檢驗,結果p=0.038,佐證了我們對資料的直觀感受。

以分組為結局變數,x的表達量為自變數,建立logistic回歸模型,結果:or=0.90,p=0.047。值得注意的是,將上述boxplot 旋轉90度後,直觀感覺 似乎能較好地擬合出 logistic的s型曲線。

以整體的中位數13為界值,劃分為高表達和低表達,進行fisher精確檢驗,結果 p=0.017.

頻率學派過渡依賴於p值,我們用貝葉斯學派的觀點來看看這一組資料。事先假定這是表達量count計數資料(離散分布),由於資料的方差(70左右)明顯大於均值(均值小於30),存在overdispersion,不太符合poisson分布,可考慮使用負二項分布。為了儘量減少主觀影響,我們假定兩組引數均值mu的先驗都為0~30之間的均勻分布,引數alpha的先驗分布都為0~10之間的均勻分布,使用mcmc取樣模擬,得到兩組引數的後驗分布如下:

且a組均值mu_1 大於 b組均值 mu_2 的概率為:96.0%

接下來我們看看非引數檢驗的表現如何。

使用wilcoxon檢驗,得到p=0.068,保守的wilcoxon不能以0.05的水準得到顯著差異。在進行biomarker篩選的時候很容易被wilcoxon誤導。

我們嘗試採用ks檢驗,結果p=0.040,誒,可以。個人一直感覺ks檢驗也比較嚴格保守,但這種情況確實能為非引數檢驗挽回一些顏面。

可能有人認為,既然資料服從正態分佈,何不直接使用 t 檢驗呢?我們如果將a組最後兩個樣本點的值27和28改為26.1和26.2,則a組的資料不再服從正態分佈(哈哈,有點誇張,這個演示稍微極端一點,但確實正態檢驗結果認為不再服從正態分佈)。這個時候還使用 t 檢驗是會被質疑的,因此不得不使用非引數檢驗方法。再次進行wilcoxon和ks檢驗,結果不變(畢竟秩次沒發生變化)。

為何不直接轉向貝葉斯推斷的懷抱,上述例子中筆者假定該計數資料符合負二項分布,但如果為連續分布資料且分布形式多種多樣(如代謝組學資料),難以統一判斷分布型別時,貝葉斯推斷好像有點吃力(主要是筆者水平還不夠)。

另外,對於將連續變數轉成分類變數再進行卡方檢驗或fisher精確檢驗的思路,存在爭議的地方在於劃分所使用的界值(中位數並不總是有效,而直接優化最佳界值也容易被質疑),並且筆者觀點是盡量避免將連續變數壓縮成二分類變數(許多大佬都認為粗魯地壓縮容易丟失大量的資訊)。同樣作為分布檢驗的方法,ks檢驗雖然不是最佳選擇,但勉強還可以代表大家出戰。

但注意,ks檢驗可能會找到一些奇奇怪怪的分布的特徵,最好剔除多峰分布的特徵(多峰分布的特徵難以解釋)。另外,ks檢驗對相同秩的情況也處理不佳(相同秩估計不准 簡直是許多非引數檢驗的共病)。

本文的示例只是其中一種典型的代表,實際(小樣本)資料中這樣的情況並不罕見。筆者認為,小樣本資料分析時,可在wilcoxon檢驗的基礎上,輔之以ks檢驗,從而提高非引數檢驗的功效,即:wilcoxon檢驗與ks檢驗分別篩選biomarker後,再取並集作為差異分析的結果,可能可以幫助挖掘潛在有用的biomarker(記得確實有一些綜述總結到ks檢驗可以作為篩選biomarker的方法之一)。

上述的例子中,眾多檢驗方法都認為兩組很可能存在差異,而wilcoxon檢驗則過於保守估計,這大概是wilcoxon的其中乙個缺陷。wilcoxon的另乙個缺陷是:丟失了數值的絕對大小,只保留了相對大小的資訊。下面舉個小樣本中簡單而又極端的栗子。

a組的3個病例的x分子表達量為:1, 2, 3

b組的3個病例的x分子表達量為:40, 50, 60

使用wilcoxon檢驗 p=0.1,而使用 t 檢驗則 p=0.01。

因此,提高非引數檢驗功效的另乙個思路是:重新引入絕對數值大小。這可能是優化非引數檢驗功效極為重要的一方面。

引數檢驗與非引數檢驗

引數檢驗 parameter test 全稱引數假設檢驗,是指對引數平均值 方差進行的統計檢驗。引數檢驗是推斷統計的重要組成部分。當總體分布已知 如總體為正態分佈 根據樣本資料對總體分布的統計引數進行推斷。非引數檢驗 nonparametric tests 是統計分析方法的重要組成部分,它與引數檢驗...

Python KS檢驗以及其餘非引數檢驗的實現

4 其餘的非引數檢驗 5 參考 定義 檢驗乙個分布f x 與理論分布g x 比如正態分佈 是否一致,或兩個觀測值分布是否有顯著差異的檢驗方法 根據定義,ks檢驗可以分為兩大類 對應的原假設和備擇假設分別為 第一種 h0 指定數列服從特定分布 h1 指定數列不服從特定分布 第二種 h0 兩個數列分布一...

R語言與非引數檢驗之單樣本位置檢驗

學習筆記 學習書目 統計學 從資料到結論 吳喜之 很多檢驗都假定了總體的背景分布,但也有些檢驗沒有假定總體分布的具體形式,這些檢驗多根據資料觀測值的相對大小建立檢驗統計量,然後找到在零假設下這些統計量的分布,並且看這些統計量的資料實現是否在零假設下屬於小概率事件。這種和資料本身的總體分布無關的檢驗稱...