後驗概率直覺解釋

後驗概率的公式為，等式的第三部分只是簡單地對第二部分的改寫。

要對這個公式建立起直覺上的理解，我打算講解三個因素對後驗概率產生影響。

第一因素，我們要的是乙個特徵為 x 的資料，能有多大機率推算出它的 label 為 y，即 y 的後驗概率 p(

y=ck

|x=x

) 。以直覺來說，如果訓練集中大部分 label 為 y 的資料的特徵都為 x，那麼乙個特徵都為 x 的資料的 label 也有很大機率為 y。

但上面僅僅是乙個因素，另外乙個因素就是 label 為 y 的訓練資料佔整個訓練集的比例（先驗概率），如果這個比例很小，那麼就說明 y 能推出 x 很有可能是偶然事件。無論計算出的 y 能推出 x 的概率有多高都不足以證明 y 能推出 x。可以這樣說，p(

y=ck

) 是對 p(

y=ck

|x=x

) 後驗概率的一種評估，評估這個概率的說服力有多強。

最後乙個因素就是整個訓練集中特徵為 x 的資料佔的比例，可以想象到，如果以 x 為特徵的資料很少，那麼知道「大部分 label 為 y 的特徵都為 x」這個事件的說服力就會變強。類似地，。下面舉例說明，假設訓練集大小為 10，label 為 y 的資料有 5 個 p(

y=y)

=1/2

，且最好情況下，其特徵都是 x，即 p(

x=x|

y=y)

=1。那麼如果整個訓練集中就只有這 5 個特徵 x，那麼 p(

x=x)

=1/2

。此時，特徵 x 推出 label 為 y 的概率十分高:

那麼，如果不是這麼好的情況，假設訓練集裡不止 5 個特徵 x，而是 7 個。這就說明有 2 個特徵 x 的 label 不為 y，雖然這個時候 p(

x=x|

y=y)

仍然是 1，但是這個概率的效果要打個折扣了。因為這種情況存在另外一種可能：特徵 x 是普遍存在的特徵（考慮極端情況，訓練集全部特徵都是 x），和它的 label 是什麼沒有關係。所以，此時的概率就被削弱成: