單個假設檢驗中主要依靠p值(或統計量t)做出是否拒絕零假設h0的決定:p-value和預先設定的檢驗水準 α 做對比,如果p-value小於等於α,拒絕原假設,否則不拒絕原假設。
在進行多重假設檢驗時,每個單獨的假設都具有其本身的i型錯誤。在這種情況下,如果不進行任何的控制,犯i-型錯誤的概率會隨著假設檢驗的個數而迅速增加。
多重假設檢驗中,廣泛使用的錯誤控制指標是總體錯誤率(family-wise error rate,fwer),即至少出現一次錯誤地拒絕真實h0的可能性;fwer小於等於alpha。而研究者更關心的是能否盡量多地識別出差異表達的基因,並且能夠容忍和允許總的拒絕中發生少量的錯誤識別,稱為錯誤發現false discovery。即需要在錯誤發現和總的拒絕次數r之間尋找一種平衡,即在檢驗出盡可能多的候選變數的同時將錯誤發現率控制在乙個可以接受的範圍。
fdr錯誤控制法是benjamini於2023年提出一種方法,通過控制fdr(false discovery rate)來決定p值的域值. 假設你挑選了r個差異表達的基因,其中有s個是真正有差異表達的,另外有v個其實是沒有差異表達的,是假陽性的。實踐中希望錯誤比例q=v/r平均而言不 能超過某個預先設定的值(比如0.05),在統計學上,這也就等價於控制fdr不能超過5%.
對所有候選基因的p值進行從小到大排序,則若想控制fdr不能超過q,則只需找到最大的正整數i,使得 p(i)<= (i*q)/m.然後,挑選對應p(1),p(2),...,p(i)的基因做為差異表達基因,這樣就能從統計學上保證fdr不超過q。
因此,fdr的計算公式如下:
q-value(i)=p(i)*length(p)/rank(p)
假設檢驗 假設檢驗學習筆記
在實際工作和研究中,往往只能獲得資料的一部分,通常指這個資料為樣本,而通過樣本對整體的估計被稱為假設檢驗。樣本是從整體中選取的較小集合,中心極限定律 樣本的均值約等於總體的均值 不管整體什麼分布,任意乙個總體的樣本均值都會圍繞在總體的均值周圍,且呈正太分布。關鍵資訊 樣本的均值等於總體的均值 樣本的...
假設檢驗 到底該怎麼理解假設檢驗?
學過統計學或概率論的同學,對 假設檢驗 這個詞一定不陌生。因為期末考試的卷子裡必定會考一道這種題,那個時候,我其實對假設檢驗的流程並不是很理解,不過幸好流程簡單,照葫蘆畫瓢,套一套格式就能答對。那假設檢驗到底是個什麼東西?先上一道假設檢驗的例題,回憶一下假設檢驗的流程,找一下當初的感覺。某工具機廠加...
(六)假設檢驗
假設檢驗的步驟 步驟1 提出原假設與備擇假設 步驟2 指定檢驗中的顯著性水平 步驟3 蒐集樣本資料並計算檢驗統計量的值 p 值方法 步驟4 利用檢驗統計量的值計算p 值 步驟5 如果p 值 a,則拒絕h0 臨界值方法 步驟6 顯著性水平確定臨界值以及拒絕規則 步驟7 利用檢驗統計量的值以及拒絕規則確...