貝葉斯判定準則:對每個樣本x,選擇能使後驗概率p(c | x)最大的類別標記
然而,在現實任務中這通常難以直接獲得,所以機器學習所要實現的是基於有限訓練樣本集盡可能準確地估計出後驗概率p(c | x)
策略通常有如下兩種:
給定x,可通過直接建模p(c | x)來**c,這樣得到的是判別式模型。(如決策樹、bp神經網路、支援向量機)
也可先對聯合概率分布p(c ,x)建模,然後再由此獲得p(c | x),這樣得到的是生成式模型。
核心思想:根據「確定分類標籤的前提下,得到樣本x的概率」進行判斷是哪乙個類。
平滑處理(smoothing):如果訓練樣本中「好瓜」裡沒有出現「青綠瓜」,那麼p(青綠|好)=0,即使其他特徵都傾向於「好瓜」,那麼最終的(連乘)結果也會等於0。所以需要進行平滑處理,進行拉普拉斯修正。
拉普拉斯修正:n代表一共有多少個分類,c是其中乙個
p (c
)=∣d
c∣+1
∣d∣+
np\left ( c \right ) = \frac
p(c)=∣
d∣+n
∣dc
∣+1
現實任務中樸素貝葉斯分類器有多種使用方式:
1.對速度有要求,預訓練好然後直接查表
2.資料流動性大,進行「懶惰學習」先不進行任何訓練,待收到**請求時再根據當前資料集進行概率估值
貝葉斯分類器
程式設計實現貝葉斯分類器。編寫matlab函式,輸入為 a 均值向量 b c類問題的類分布的協方差矩陣 c c類的先驗概率 d 基於上述類的包含列向量的矩陣x。根據貝葉斯規則,輸出為乙個n維向量,它的第i列表示相應輸入向量x的第i列的類別。clear all clc mu 1 1 sigma 9 4...
貝葉斯分類器
首先在貝葉斯分類器之前先說貝葉斯理論 1 貝葉斯分類器 假設有n種可能的分類標記,即為y ij 是將乙個真實的標記cj的樣本誤分類為ci發損失,後驗概率p ci x 可獲得樣本x分類為ci的期望,則在樣本x上的 條件風險 是 我們需要最小化這個風險,也就是在每個樣本上選擇那個能使條件風險r c x ...
樸素貝葉斯分類器
p a b frac 類別 結果 a出現在特徵b樣本裡的概率 frac 假設乙個學校裡有60 男生和40 女生。女生穿褲子的人數和穿裙子的人數相等,所有男生穿褲子。隨機看到了乙個穿褲子的學生,那麼這個學生是女生的概率是多少?begin 特徵 穿褲子 類別 女生 p 女生 穿褲子 frac frac ...