貝葉斯理論應用於機器學習方面產生了多種不同的方法和多個定理,會讓人有些混淆。主要有最大後驗概率,極大似然估計(mle),樸素貝葉斯分類器,還有乙個最小描述長度準則。
貝葉斯理論是基於概率的理論,設\(\lambda_\)是將實為\(c_j\)的樣本標記為\(c_i\)的損失,則將樣本\(x\)標記為\(c_i\)的期望損失是
\[r(c_i|x)=\sum_^p(c_j|x)} \hspace(1)
$$當$$\lambda_=\begin 0,&\text \\ 1,&\text \end \hspace(2)
$$有\]
r(c|x)=1-p(c|x) \hspace(3)
\[ 所以對於樣本$x$,我們要選擇使期望損失最小的標記$c$,即$minr(c|x)$,等價於$maxp(c|x)$,這就是最大後驗概率的含義,也是貝葉斯決策論。
根據貝葉斯定理,
$$p(c|x)=\frac \hspace(4)
$$ 因此,估計$p(c|x)$的問題就轉換為如何基於訓練資料$d$來估計先驗概率$p(c)$和似然概率$p(x|c)$。一般來說,先驗概率$p(c)$可通過各類樣本出現的頻率來估計,而似然概率$p(x|c)$由於涉及關於$x$所有屬性的聯合概率,難以直接根據樣本出現的頻率進行估計。
假設$p(x|c)$具有確定的形式並且被引數向量$\theta_c$唯一確定,我們可以將$p(x|c)$記為$p(x|\theta_c)$。對於引數$\theta_c$的估計,統計學界有兩個不同的學派,頻率主義認為引數雖然未知,但卻是客觀存在的固定值,因此,可通過優化似然函式等準則確定。令$d_c$表示訓練集$d$中第$c$類樣本組成的集合,假設這些樣本是獨立同分布的(注意這裡是樣本),則引數$\theta_c$對於資料集$d$的似然是
$$p(d_c|\theta_c)=\prod_p(x|\theta_c) \hspace(5)
$$對$\theta_c$進行極大似然估計,就是去尋找能最大化似然$p(d_c|\theta_c)$的引數值$\widehat_c$,即
$$\widehat_c=\mathopmax}_p(d_c|\theta_c) \hspace(6)
$$。這就是極大似然估計(mle)的方法,這種估計結果的準確性嚴重依賴於所假設的概率分布形式是否符合潛在的真實資料分布。
除頻率學派外的另乙個學派就是貝葉斯學派,貝葉斯學派認為引數是未觀察到的隨機變數,其本身也可能有分布,因此,可假定引數服從乙個先驗分布,然後基於觀測到的資料來計算引數的後驗分布,由此產生了樸素貝葉斯分類器。
樸素貝葉斯分類器假設對已知類別,所有屬性相互獨立(注意是屬性),換言之,假設每個屬性獨立地對分類結果發生影響。於是,
$$p(c|x)=\frac=\frac\prod^d_p(x_i|c) \hspace(7)
$$其中$d$為屬性數目,$x_i$為$x$在第$i$個屬性上的取值。由於對於所有類別來說$p(x)$相同,因此有
$$h_(x)=\mathopmax}_ p(c)\prod^d_p(x_i|c) \hspace(8)
$$這就是樸素貝葉斯分類器的表示式。
當把「屬性獨立」條件放寬,適當考慮一部分屬性鍵的相互以來資訊時,就得到了半樸素貝葉斯分類器。
貝葉斯網借助有向無環圖來刻畫屬性之間依賴關係,並使用條件概率表來描述屬性的聯合概率分布,最小描述長度準則(mdl)就是指找到乙個能以最短編碼長度描述訓練資料的模型,這裡的模型就是指貝葉斯網。\]
貝葉斯在機器學習中的應用(一)
貝葉斯在機器學習中的應用 一 一 前提知識 具備大學概率論基礎知識 熟知概率論相關公式,並知曉其本質含義 或實質意義 二 入門介紹 先驗概率 即正向求解概率。如 四個紅球,兩個白球,從中任取乙個為白球的概率 後驗概率 即逆向求解概率。如 紅球的次品率為30 白球的次品率為10 現在袋子中的白球與紅球...
機器學習 貝葉斯
bayes.py包含了所有函式的實現,需要做的是,明白各個函式的功能作用及輸入輸出,在指令碼中完成函式的呼叫,給出要求的格式的結果。from numpy import import csv import random random.seed 21860251 def loaddataset post...
機器學習 樸素貝葉斯
樸素貝葉斯原理 1.貝葉斯公式 2.樸素貝葉斯的模型 3.後驗概率最大化的含義 4.樸素貝葉斯的引數估計 4.1.特徵是離散值 假設符合多項式分布 4.2.特徵是稀疏的離散值 假設符合伯努利分布 4.3.特徵是連續值 假設符合正態分佈 5.樸素貝葉斯演算法過程 6.樸素貝葉斯演算法小結 scikit...