貝葉斯估計

2022-08-27 14:36:10 字數 1367 閱讀 1745

其實這是我之前最想第一篇來寫的隨筆了,今天就先把這一部分寫一寫吧。

1.問題

乙個醫療診斷問題有兩個可選的假設:病人有癌症、病人無癌症可用資料來自化驗結果:陰性和陽性。有先驗知識:在所有人口中,患病率是0.008,對確實有病的患者的化驗準確率為98%,對確實無病的患者的化驗準確率為97% 。

問題:假定有乙個新病人,化驗結果為陽性,是否應將病人斷定為有癌症?

我們先把問題簡單描述一下,用事件y表示檢測為陽性,用事件n表示檢測為陰性,用a表示患有癌症,用b表示健康。那麼有:

$$p(a) = 0.008$$ $$p(b) = 0.992$$ $$p(y|a) = 0.98$$ $$p(n|b) = 0.97$$ $$p(n|a) = 0.02$$ $$p(y|b) = 0.03$$

然後讓我們求\(p(a|y)\)

讓我們求已知檢測為陽性的情況下,病人患有癌症的條件概率,根據條件概率的定義有$$p(a|y) = \frac$$ 

而:$$p(a,y) = p(y|a)p(a)$$

那麼\(p(y)\)怎麼求呢?

我們發現a和b是互斥事件,且\(p(a) + p(b) = 1\),根據聯合概率和邊緣概率的關係,有:$$p(y,a) + p(y,b) = p(y)$$

再次利用聯合概率和條件概率:$$p(y,a) = p(y|a)p(a)$$ $$p(y,b) = p(y|b)p(b)$$

最終得到:$$p(a|y) = \frac$$

帶入得\(p(a|y) = 0.208\),這好像和直覺相差甚遠,明明對有病患者準確率高達98%,為什麼檢測結果為陽性但是可信度只有21%左右?

我們來看看這種檢測方法診斷結果為陽性的概率\(p(y) = 0.0376\),發現了什麼,該癌症發病率只有0.008,有0.0376的概率的概率是結果為陽性。假設隨機10000個人來檢查,其中癌症患者的期望為80,但是檢測結果為陽性的期望為376。這表明檢測結果為陽性時,假陽性概率很大,在0.008的發病率看來,對正常病人3%的誤差反而大得多,這也是陽性結果可信度低的最主要原因。

我們直接看上面的公式,發現待求的條件概率等於對應的聯合概率佔所有對應聯合概率總和(這個總和就是邊緣概率)的比值,例題中正常病人卻檢測出陽性結果佔總陽性結果的比例過大(準確率太低),導致最終可信度小,這與上面的描述是等價的。

2.貝葉斯估計公式

$$p(a|b) = \frac$$

貝葉斯估計公式本質是條件概率和邊緣概率的聯絡,它提供了根據當前觀測結果以及先驗知識來估計新的分布的方法。在上式中,\(p(a)\)和\(p(b)\)就是先驗知識,或者叫先驗概率,\(p(b|a)\)是當前的觀測結果,通常稱之為後驗概率。

3.新的問題

貝葉斯估計提供了估計方法,但是需要我們如何通過觀測獲得具體的分布呢?那就是分布估計方法啦。

貝葉斯估計詳解

貝葉斯估計 貝葉斯估計 從引數的先驗知識和樣本出發。不同於ml估計,不再把引數 看成乙個未知的確定變數,而是看成未知的隨機變數,通過對第i類樣本di的觀察,使概率密度分布p di 轉化為後驗概率p di 再求貝葉斯估計。假設 將待估計的引數看作符合某種先驗概率分布的隨機變數。基本原理 我們期望 貝葉...

貝葉斯引數估計

學習這部分內容約需要1.9小時 在貝葉斯框架中,我們將統計模型的引數視為隨機變數.模型由變數值的先驗分布以及決定引數如何影響觀測資料的證據模型來指定.當我們對觀測資料進行條件化時,我們得到引數的後驗分布.術語 貝葉斯引數估計 會讓我們誤以為對引數進行了估計,實際上我們通常可以完全跳過引數估計步驟.我...

貝葉斯思維(例項2) 估計

鐵路上以1到n命名火車頭。有一天你看到乙個標號60的火車頭,請估計鐵路上有多少火車頭?應用貝葉斯進行推理,可以將這個問題分成兩步 1.在得到資料之前,我們對n的認識是什麼?2.已知乙個n的任意值後,得到資料 標誌為60號的火車頭 的似然度?第乙個問題的答案就是問題的前置概率,第二個問題是似然度。在選...