在實際的貝葉斯決策過程中是比較複雜的:標籤和特徵都會有很多,每乙個特徵下也有很多不同的取值。
對於上述公式而言,我們從訓練集中求解p(y=1)比較容易,但求解p(x)和p(x
ix_i
xi
ix_i
xi|y=1)也會很難計算。
但實際上,以二分類問題為例,我們一般是判斷在同乙個樣本下,更接近0還是更接近1,即
且:p(y=1|**x**) + p(y=0|**x**) = 1
即在實際的計算過程中,兩個概率的分母是相同的,因此可以不計算分母,即無需計算難於計算的p(x)。可以只計算分子,即分別求解p(y=1|x)和p(y=0|x),再把這兩個結果相加的和作為分母。這就是「最大後驗估計」(map),主要求解的就是每個樣本在每個特徵取值下的p(x
ix_i
xi|y=y
iy_i
yi),再連乘。分子更大的y所對應的類別就是樣本更靠近的那一類。
p(拖欠貸款|沒房,喪偶) = p(沒
房,喪偶
∣拖欠貸
款)∗p
(拖欠貸
款)p(
沒房,喪
偶)\over
p(沒房,喪
偶)p(
沒房,喪
偶∣拖欠
貸款)∗
p(拖欠
貸款)
=p (沒
房∣拖欠
貸款)∗
p(喪偶
∣拖欠貸
款)∗p
(拖欠貸
款)p(
拖欠貸款
)∗p(
沒房,喪
偶∣拖欠
貸款)+
p(不拖
欠貸款)
∗p(沒
房,喪偶
∣不拖欠
貸款)\over
p(拖欠貸款
)∗p(
沒房,喪
偶∣拖欠
貸款)+
p(不拖
欠貸款)
∗p(沒
房,喪偶
∣不拖欠
貸款)p
(沒房∣
拖欠貸款
)∗p(
喪偶∣拖
欠貸款)
∗p(拖
欠貸款)
上面我們說了,無需計算分母,所以我們需要算的是p(沒房|拖欠貸款)、p(喪偶|拖欠貸款)以及p(拖欠貸款)。而對於p(喪偶|拖欠貸款),喪偶這個特徵值是我們的訓練集中沒有的,所以p(喪偶|拖欠貸款)結果是0。分子是連乘的,所以會導致最終結果為0,這就使得概率**沒有意義了。所以不能讓它等於0,這是乙個需要解決的問題。除此之外,② 對於現實中標籤是連續型的變數,就沒法用樣本個數佔比這種方法來計算了。
06 最大後驗估計
最大後驗 本文次從貝葉斯的角度,觀察和認識誤差函式和正則化 多項式擬合問題可以等價於誤差最小化問題 問題描述 曲線擬合問題的目標是 根據 n 個輸入 x x1,xn t 組成的資料集和對應的目標值 t t1,tn t 在給出新的輸入變數 x 的新值的情況下,目標變數 t 貝葉斯的角度 用目標變數值的...
最大後驗估計MAP
概念 在貝葉斯統計學中,最大後驗 maximum a posteriori,map 估計可以利用經驗資料獲得對未觀測量的點態估計。它與fisher的最大似然估計 maximum likelihood,ml 方法相近,不同的是它擴充了優化的目標函式,其中融合了預估計量的先驗分布資訊,所以最大後驗估計可...
最大後驗估計MAP
最大後驗估計map是最常用的幾個引數點估計之一,基本原理由貝葉斯定理而來,先看貝葉斯公式 p x p x p p x p left theta mid boldsymbol x right frac p x p x p x p 其中,我們將p p left theta right p 稱為先驗概率,...