重新認識貝葉斯公式

2022-05-07 12:48:12 字數 3112 閱讀 7554

統計學中,在**不確定性(概率)這件事時分兩派:頻率學派和貝葉斯學派。

頻率學派認為概率是事件在長時間內發生的頻率,是固定的。(比如我們若何得知拋一枚硬幣出現正面的概率是0.5,這是通過拋了好多好多次之後,我們統計正面出現頻率發現是0.5,那就認為拋一枚硬幣出現正面的概率是0.5,注意,這裡是必須拋好多好多次之後,我們才能得到概率)

貝葉斯學派認為概率是被解釋為我們對一件事情發生的相信程度,即對此事件發生的信心。而對此事件發生的信心(概率)是會變化的,是隨著我們不斷獲得新的資訊而發生變化。

舉個例子,一枚硬幣我拋第0次,我們是無法知道出現正面的概率是多少的,拋了10次,出現了9次正面,1次反面,我們就認為,硬幣出現正面的概率是0.9,當拋第11次的時候,我們看到出現的是正面(這個資訊就是獲得的新資訊),那麼我們就會對硬幣出現正面這個事件發生的信心(概率)作出變化,認為是概率是10/11。

扯遠了,這兩天在重溫貝葉斯公式,找了不少資料,對貝葉斯有了新的認識,而且看了不少優秀的部落格,裡邊的觀點給我新的啟發,於是乎打算寫個blog記錄一下。

在這裡,先講兩個概念,

先驗概率(prior probability)是指根據以往經驗分析得到的概率

後驗概率(posterior probability)是指在得到「結果」的資訊後重新修正的概率

看看後驗概率的解釋是不是很熟悉?貝葉斯學派就是這麼確定乙個事件發生的概率的啊 !得到「結果」的資訊對應獲得新的資訊重新修正的概率就是後驗概率,

後驗概率就是我得到了一些新訊息之後對原來的概率(先驗概率)進行「修正」。

後驗概率就是修正了的先驗概率。

後驗概率就是對先驗概率進行修正後得到的概率值。

看不懂沒關係,知道有先驗概率和後驗概率就好,後邊會解釋清楚。

先膜拜一下貝葉斯:

再膜拜一下貝葉斯公式:

(大學考試時,就死記硬背這個公式,把後面的(b)放分母,前面的(a)放分子,分子再乘一項這個的交換(a\b)變成(b\a))方便快捷。。。然而這樣完全丟失了偉大的貝葉斯思想。

解釋貝葉斯公式最簡單的方法就是舉栗子,舉栗子,舉栗子

(舉栗子之前,定義一下先驗概率,後驗概率,修正因子

貝葉斯公式等號左邊的就是後驗概率

,等號右邊分子的p(a)就是先驗概率,剩下的那一塊就是修正因子啦

重新排一下就是:

後驗概率 = 先驗概率 * 修正因子

這麼講還是很抽象,什麼是後驗概率?什麼是先驗概率?什麼是修正因子?

栗子1:

大家都考過試,做過選擇題(單選),而選擇題的答案(通常是abcd)往往是遵循某種分布的,譬如12道單選題中,abcd各佔3個。

那麼我們來考慮乙個做單項選擇題的問題,假設一位同學cc,要做乙份卷子,卷子如下,僅有四道單選題,每道單選題只有四個選項,並且知道四道題的答案的分布是 abcd各乙個:

1 + 1 = () a. 2 ; b. 8 ; c. 6 ;d. 10

1 + 2 = () a. 2 ; b. 3 ; c. 6 ;d. 10

1 + 3 = () a. 2 ; b. 8 ; c. 4 ;d. 10

甲、乙、丙、丁四人商量週末出遊,甲說:乙去,我就肯定去;乙說:丙去我就不去;丙說:無論丁去不去,我都去;丁說:甲乙中至少有乙個人去,我就去。以下哪項推論可能是正確的:

a 乙、丙兩個人去了 ; b 甲乙個人去了; c 四人都去了; d 甲、丙、丁 三個人去了

請在10秒內給出這四道題的答案,沒錯就是abc……(大寫黑人問號臉)

第四題是什麼鬼?10秒做 1+1 我就會,可是第四題。。。只能隨機猜了啊。但是如果是隨機猜,答對的概率是四分之一,但是有了貝葉斯公式,就可以猜得更準啦,在這裡可以從25%的概率提公升到100%!看cc同學是如何利用貝葉斯公式在10秒內正確答對這四道題的。

cc同學用了3秒鐘完成了 1,2,3道題,得到答案分別是:a b c,然後她看到第四道題就meng了。還好她學過貝葉斯公式!經過7秒的計(xia)算(cai),第四道題她選擇d 。她是如何應用貝葉斯公式的呢? 是這樣的:

首先我們知道 四道題 答案分布是 abcd各乙個,在沒有做1,2,3道題的時候,猜第4道題的答案,那麼肯定是

p(答案=a) = p(答案=b)=p(答案=c) = p(答案=d) = 0.25

,這個就是我們的先驗知識(也稱先驗概率,忘記了趕緊往上拉),當cc把第1,2,3道題的答案都算出來是a b c之後,這個時候就有了新的資訊,也就是 1,2,3道題的正確答案是 a b c ,那麼我們再去猜第四道題。

在這裡,要謹記乙個前提,四道題答案分布是 abcd各乙個

這樣,第1,2,3道題的答案可能的組合是 :abc; acd; abd; bcd;

(這裡說的是三個字母的組合,隨便對應哪道題,這裡並不關心,因此只有四種可能)

那麼p(123 = abc) 的概率就是 四分之一;

我們直接計算 第四道題答案=d 的概率(實在不會編輯公式,手寫吧):

我們發現竟然直接可以得出第四道題的答案是d。

從原來的 第四題選d 的概率四分之一(先驗概率),通過我們得到新的資訊(123選了abc),我們對第四道題選擇d的信心(信念)進行了修改(後驗概率),這就是貝葉斯的思想。

貝葉斯公式

貝葉斯定理由 英國數學家貝葉斯 thomas bayes 1702 1763 發展,用來描述兩個條件 概率之間的關係,比如 p a b 和 p b a 按照 乘法法則 p a b p a p b a p b p a b 可以立刻匯出 如上公式也可變形為 p b a p a b p b p a 例如 ...

貝葉斯公式

貝葉斯定理由英國 數學家貝葉斯 thomas bayes 1702 1763 發展,用來描述兩個條件 概率之間的關係,比如 p a b 和 p b a 按照乘法法則 p a b p a p b a p b p a b 可以立刻匯出 貝葉斯定理公式 p a b p b a p a p b 如上公式也可...

貝葉斯公式

是基於樸素貝葉斯定理分類器,其計算過程是在訓練階段的時候,先計算每個分類的先驗概率p a 和各個分類下面特徵屬性的條件概率p b a 的過程 反推特徵 分類的條件概率 a b 取最大概率作為分類結果。貝葉斯定理 已知a 分類 的條件概率,b 某個特徵 在a發生後的條件概率,求a在b發生後的條件概率 ...