對於分類任務來說,在所有的相關概率都已知的理想情形下,貝葉斯決策論考慮如何基於這些概率和誤判損失來選擇最優的類別標記。
假設有n
中可能的類別標記,即y=
,λij
是將乙個真實標記為cj
的樣本誤分類為ci
所產生的損失。基於後驗概率p(
ci∣x
) 可以獲得將樣本
x 分類為ci
所產生的期望損失,即在樣本
x 上的「條件風險」 r(
ci∣x
)=∑j
=1nλ
ijp(
cj∣x
) 找到乙個判定準則h:
x↦y 以最小化總體風險 r(
h)=e
x[r(
h(x)
∣x)]
為最小化總體風險,只需要在每個樣本上選擇那個可以使得條件風險r(
c∣x)
最小的類別標記。即: h∗
(x)=
argminc∈
yr(c
∣x)
此時h∗ 被稱為貝葉斯最優分類器,與之對應的總體風險r(
h∗) 被稱為貝葉斯風險。1−
r(h∗
) 反映了分類器所能達到的最好效能,即通過機器學習所能產生的模型精度的理論上限。
若將誤判損失寫成: λi
j={0
1,,if
i=j;
otherwise
則此時條件風險為: r(
c∣x)
=1−p
(c∣x
) 最小化分類錯誤率的貝葉斯最優分類器為: h∗
(x)=
argmaxc∈
yp(c
∣x)
即對於每個樣本
x 選擇能夠使得後驗概率p(
c∣x)
最大的類別標記。
利用貝葉斯判定準則來最小化決策風險,首先要獲得後驗概率p(
c∣x)
,但是這通常在現實任務中難以獲得。給定x
,可通過直接建模p(
c∣x)
來**c 。
先對聯合概率分布p(
x,c)
建模,然後再由此獲得p(
c∣x)
可以使用貝葉斯公式: p(
c∣x)
=p(c
)p(x
∣c)p
(x)
機器學習筆記(6)貝葉斯分類器
一 貝葉斯分類器的訓練過程以及判斷過程都是一系列概率的乘積,這種方法主要關注的是做出決策的平均錯誤率,這對大多數的應用來說是合理的。但在一些特殊的應用中,不同型別的決策錯誤所要付出的代價和風險是不同的。癌症患者漏診為正常代價很大,可能延誤有效的 正常人誤診為癌症患者代價較小,通過後續檢查可以排除。解...
機器學習 樸素貝葉斯分類器
假設現在要構建乙個網路圖書館,我們可以給新進來的書貼上若干個標籤,沒有機器學習演算法的情況下,我們需要給這些書手動分類,是計算機類的呀,還是非計算機類的呀,是 類的呀,還是非 類的云云。那麼,我們可以通過讓程式自己學習如何通過一本書上的若干標籤來進行圖書類別的區分,這樣就可以節省很多人力,這也是機器...
從樸素貝葉斯分類器到貝葉斯網路(下)
書接上文 從樸素貝葉斯分類器到貝葉斯網路 上 三 貝葉斯網路 貝葉斯網路 bayesian network 是一種用於表示變數間依賴關係的資料結構,有時它又被稱為信念網路 belief network 或概率網路 probability network 在統計學習領域,概率圖模型 pgm,proba...