後驗概率的公式為,等式的第三部分只是簡單地對第二部分的改寫。
要對這個公式建立起直覺上的理解,我打算講解三個因素對後驗概率產生影響。
第一因素,我們要的是 乙個特徵為 x 的資料,能有多大機率推算出它的 label 為 y,即 y 的後驗概率 p(
y=ck
|x=x
) 。以直覺來說,如果訓練集中大部分 label 為 y 的資料的特徵都為 x,那麼乙個特徵都為 x 的資料的 label 也有很大機率為 y。
但上面僅僅是乙個因素,另外乙個因素就是 label 為 y 的訓練資料佔整個訓練集的比例(先驗概率),如果這個比例很小,那麼就說明 y 能推出 x 很有可能是偶然事件。無論計算出的 y 能推出 x 的概率有多高都不足以證明 y 能推出 x。可以這樣說,p(
y=ck
) 是對 p(
y=ck
|x=x
) 後驗概率的一種評估,評估這個概率的說服力有多強。
最後乙個因素就是整個訓練集中特徵為 x 的資料佔的比例,可以想象到,如果以 x 為特徵的資料很少,那麼知道 「大部分 label 為 y 的特徵都為 x」 這個事件的說服力就會變強。類似地,。下面舉例說明,假設訓練集大小為 10,label 為 y 的資料有 5 個 p(
y=y)
=1/2
,且最好情況下,其特徵都是 x,即 p(
x=x|
y=y)
=1。那麼如果整個訓練集中就只有這 5 個特徵 x,那麼 p(
x=x)
=1/2
。此時,特徵 x 推出 label 為 y 的概率十分高:
那麼,如果不是這麼好的情況,假設訓練集裡不止 5 個特徵 x,而是 7 個。這就說明有 2 個特徵 x 的 label 不為 y,雖然這個時候 p(
x=x|
y=y)
仍然是 1,但是這個概率的效果要打個折扣了。因為這種情況存在另外一種可能:特徵 x 是普遍存在的特徵(考慮極端情況,訓練集全部特徵都是 x),和它的 label 是什麼沒有關係。所以,此時的概率就被削弱成:
先驗概率 後驗概率
貝葉斯公式的直觀理解 先驗概率 後驗概率 前言 以前在許學習貝葉斯方法的時候一直不得要領,什麼先驗概率,什麼後驗概率,完全是跟想象脫節的東西,今天在聽喜馬拉雅的音訊的時候突然領悟到,貝葉斯老人家當時想到這麼一種理論前提可能也是基於一種人的直覺.先驗概率 是指根據以往經驗和分析得到的概率.1 意思是說...
先驗概率,後驗概率
一 先驗概率 1.1 定義 直觀理解,所謂 先 就是在事情之前,即在事情發生之前事情發生的概率。是根據以往經驗和分析得到的概率。1.2 例子 比如拋硬幣,我們都認為正面朝上的概率是0.5,這就是一種先驗概率,在拋硬幣前,我們只有常識。這個時候事情還沒發生,我們進行概率判斷。所謂的先驗概率是對事情發生...
先驗概率and後驗概率
from and 先驗概率 事件發生前的預判概率。可以是基於歷史資料的統計,可以由背景常識得出,也可以是人的主觀觀點給出。一般都是單獨事件概率,如p x p y 後驗概率 事件發生後求的反向條件概率 或者說,基於先驗概率求得的反向條件概率。概率形式與條件概率相同。條件概率 乙個事件發生後另乙個事件發...