【文章搬運自我的網易部落格(
今天下午偶然機會,又去看貝葉斯公式。
就是這樣簡單的號稱是「概率論中的勾股定理」的乙個公式。有非常有趣的一點。
所謂「反直覺」的一點。 這個鏈結中,果殼網友討論了乙個問題:粗略估計大概每1000人中就有一人得愛滋病。採用某種血液試驗檢測法用於檢測身體中是否含有愛滋病病毒,這種方法相當精確,但也可能帶來兩種誤診。首先,他可能會讓某些真有愛滋病的人得到陰性結果,稱為假陰性,不過只有0.05的概率發生;其次,它還可能讓某些沒有愛滋病的人得到陽性結果,稱為假陽性,不過只有0.01的概率會發生。那麼如果乙個人檢測結果為陽性,那麼他得愛滋病的概率到底是多大?
當然,解答這個問題,我們要借助貝葉斯公式。
(1)我們定義事件a為「被檢測人帶有愛滋病病毒」,則a『表示被檢測人不攜帶愛滋病病毒;定義事件t為「試驗結果呈陽性」;
(2)要求概率 p(a|t)。由貝葉斯公式可知:
(3)計算得,p(a|t)=0.087
結論是:如果乙個人檢測結果為陽性,那麼他患病的概率是8.7% 。很低的乙個概率。試想,乙個人在得知自己的血檢是陽性的時候又聽說其實患病的概率只是8.7%會有什麼感受?
對,唯一的感受是:這哪兒跟哪兒啊?!
可是貝葉斯公式錯了嗎?推導過程一步步在那擺著呢。那直覺錯了嗎?直覺怎麼會錯,難道我看到陽性結果不應該為自己擔心嗎?
同樣在那個鏈結中,有乙個id為 on9 的人說:我認為這樣解釋能讓更多人容易理解:假設有這麼乙個理想統計人群,一共有十萬人。那麼按照文中的發病率千分之一,那麼應該有一百人有愛滋病。而根據那兩個誤診率,那麼這一百個人裡面,有九十五個會驗出是陽性,而有五個(5%)會被驗出為陰性(假陰性)。而在剩下的九萬九千九百個沒病的人裡面,會有九百九十九個人(1%)驗出是陽性(假陽性)。因此,總結所有十萬個人裡面,驗出陽性的人有999+95=1094人,其中真正有病的只有95個,佔其中的8.68%。那位被驗出是陽性的哥,真正杯具的機率只有不到10%!
參考他的說法,我自己又整理了一下思路:用直白的話說,乙個健康人檢驗結果為陽性的概率是0.01,但是有很多「不幸」的健康人落入到這個概率中。而在所有檢測為陽性的人中,真正的病人與「不幸」的健康人比例大概為10:90,也就是100個陽性檢測結果中,有90個人是健康的。所以就會有這種反直覺的計算結果。而出現這種結果的原因是什麼?因為健康人檢驗結果為陽性的概率(0.01)太高,也就是檢測可靠性太低。我算了一下,如果健康人檢驗結果為陽性的概率降低到0.0001,那麼如果乙個人檢驗結果為陽性,那麼他患病的概率就飆公升到0.9056.
所以我認為,所謂的反直覺這種情況,其實是不存在的。如果機器的檢測結果可靠性更好,也不存在「陽性結果患病的概率只有8%」這種情況。而題中所言的0.01的誤診率,其實是非常高的。而這也是我認為唯一存在「反直覺」的地方——在概率與統計中,0.1的誤差其實比我們所認為的大得多。
貝葉斯公式
貝葉斯定理由 英國數學家貝葉斯 thomas bayes 1702 1763 發展,用來描述兩個條件 概率之間的關係,比如 p a b 和 p b a 按照 乘法法則 p a b p a p b a p b p a b 可以立刻匯出 如上公式也可變形為 p b a p a b p b p a 例如 ...
貝葉斯公式
貝葉斯定理由英國 數學家貝葉斯 thomas bayes 1702 1763 發展,用來描述兩個條件 概率之間的關係,比如 p a b 和 p b a 按照乘法法則 p a b p a p b a p b p a b 可以立刻匯出 貝葉斯定理公式 p a b p b a p a p b 如上公式也可...
貝葉斯公式
是基於樸素貝葉斯定理分類器,其計算過程是在訓練階段的時候,先計算每個分類的先驗概率p a 和各個分類下面特徵屬性的條件概率p b a 的過程 反推特徵 分類的條件概率 a b 取最大概率作為分類結果。貝葉斯定理 已知a 分類 的條件概率,b 某個特徵 在a發生後的條件概率,求a在b發生後的條件概率 ...