對於條件概率,我們有:
表示在b已知的情況下(條件)發生a的概率。
貝葉斯定理聯絡先驗概率和後驗概率:
p(a|b)表示在b發生的情況下a發生的概率。
p(a)指先驗概率;p(b|a)為似然函式,形式同條件概率;p(b)也為先驗概率,可通過全概率公式計算得到;p(a|b)為後驗概率。
不同:①先驗概率:事件發生前的預判概率。可以是基於歷史資料的統計,可以由背景常識得出,也可以是人的主觀觀點給出。一般都是單獨事件概率。
②後驗概率:事件發生後求的反向條件概率。或者說,基於先驗概率求得的反向條件概率。
③似然函式:是根據已知結果去推測固有性質的可能性(likelihood),是對固有性質的擬合程度。
在分類問題中,其可記做:
p(ci|x)表示在給出資料x的條件下,其屬於ci的概率。 p(x|ci)可稱為類條件概率密度函式,p(x)可稱為全概率密度,通過全概率公式得到:
基於貝葉斯準則,
為資料x的分類。由於全概率對於所有的p(ci|x)都相同,因此只需要比較分子的大小即可。
即x表示某個資料的n維特徵,p(x|ci)可以把x中的特徵展開表示:
該假設為x的所有特徵都相互獨立,則:
對於離散型的特徵,通常需要求其每乙個取值的概率。而對於連續型特徵,則將其離散化。
約定:樣本數為m,ci類別的樣本數為mi,總類別個數為c。
第i個樣本的特徵總數為αi,其第j個特徵取值情況有βj種。
全部不同特徵共a種,第j種特徵xj取值情況共bj種,其第k種取值記為bik。所有特徵不同取值情況總和記為b。
①適用資料型別
離散值。即對應的特徵為離散的。比如性別(取值為男、女)、學歷(小學、高中、本科、專科、碩士、博士、博士後)。
②模型介紹
該模型在一些書中也稱為詞袋模型。需要統計每個特徵取值的樣本數目。
在多項式模型中,通常含有平滑項σ,有:
表示在類別ci中,特徵xj取值為bk的概率; mi表示類別為ci的樣本數;
表示類別為ci的樣本中,特徵xj取值為bjk的樣本數目;b表示所有特徵的不同取值的總和;c為總類別個數。
σ=0時,表示不做平滑處理。
σ=1時,稱為拉普拉斯平滑(laplace平滑)。能夠防止
為0而導致的後驗概率為0的情況。
0對於文字分類,則有:
mi表示類別為ci的詞向量中所有出現單詞的總和;
表示類別為ci的所有詞向量中單詞xj出現的次數。
對於所**的某個詞向量,其可能並未包含所有詞彙表的詞,則只需將其出現的xj來計算
。①適用資料型別
離散值。
②模型介紹
該模型在有些書中也被稱為詞集模型。其與多項式模型類似,不過該模型中,每個特徵取值只能為1或0,表示出現與否(對於文字分類而言,1表示某個單詞出現在該文字中,0則表示沒有出現),其全部特徵取自全域性。當然對於特徵取值大於2的情況,需要自定義一定的閾值來判斷0和1的取值情況。
①適用資料型別
連續型。比如身高等。
②模型介紹
高斯模型假設每一維特徵都服從高斯分布(正態分佈):
其中,μ表示類別為ci、特徵xj的均值;
σ2為類別為ci、特徵xj的方差。
bjk是連續型變數xj的某乙個取值。
因此,只需對於樣本資料得到每個類別中每個連續型特徵的均值和方差,也就是得到正態分佈的密度函式。有了密度函式,就可以把某個**資料的該連續性特徵的值代入,算出某一點的密度函式的值。
有時會遇到下溢位問題,即
過小,導致所有過小的數的乘積結果由於捨入為0。這時可以使用取對數的方法避免下溢位或浮點捨入導致的錯誤:
最後選取
值最大的所對應類別即為**類別。
樸素貝葉斯
樸素貝葉斯演算法是一種基於概率統計的分類方法,它主要利用貝葉斯公式對樣本事件求概率,通過概率進行分類。以下先對貝葉斯公式做個了解。對於事件a b,若p b 0,則事件a在事件b發生的條件下發生的概率為 p a b p a b p b 將條件概率稍作轉化即可得到貝葉斯公式如下 p a b p b a ...
樸素貝葉斯
1.準備資料 從文字中構建詞向量 2.訓練演算法 從詞向量計算概率 3.測試演算法 儲存為 bayes.py 檔案 參考 coding utf 8 from numpy import 文字轉化為詞向量 def loaddataset postinglist my dog has flea probl...
樸素貝葉斯
機器學習是將資料轉化為決策面的過程 scikit learn縮寫為sklearn 訓練乙個分類器,學習之後 其處理的準確性 def nbaccuracy features train,labels train,features test,labels test from sklearn.bayes ...