多項式模型:(以詞為粒度,目標文件中沒出現的詞不參與後驗概率計算)
先驗概率p(c)=類c下單詞總數 / 整個訓練樣本的單詞總數
類條件概率p(tk|c)=(類c下單詞tk在各個文件**現過的次數之和+1) / (類c下單詞總數+|v|)
p(yes | d)=p(yes)×p(chinese|yes) ×p(japan|yes) ×p(tokyo|yes)
伯努利模型:(以文件為粒度,目標文件中沒出現的詞也參與概率計算)
p(c)= 類c下檔案總數 / 整個訓練樣本的檔案總數
p(tk|c)=(類c下包含單詞tk的檔案數+1) / (類c的文件總數+2)
p(yes | d)=p(yes)×p(chinese|yes) ×p(japan|yes) ×p(tokyo|yes)×(1-p(beijing|yes)) ×(1-p(shanghai|yes))×(1-p(macao|yes))例項
居然還有嚴謹的推導!
樸素貝葉斯模型
生成模型 條件概率 p a b p a b p b 全概率 p a in p a bi p bi inp abi 把所 有包含a 的情況都 加起來 貝葉斯公式 p a b p ak b p ab p b ak p ak p b i p b ai p ai p b ak p ak i 1 kp b a...
樸素貝葉斯
樸素貝葉斯演算法是一種基於概率統計的分類方法,它主要利用貝葉斯公式對樣本事件求概率,通過概率進行分類。以下先對貝葉斯公式做個了解。對於事件a b,若p b 0,則事件a在事件b發生的條件下發生的概率為 p a b p a b p b 將條件概率稍作轉化即可得到貝葉斯公式如下 p a b p b a ...
樸素貝葉斯
1.準備資料 從文字中構建詞向量 2.訓練演算法 從詞向量計算概率 3.測試演算法 儲存為 bayes.py 檔案 參考 coding utf 8 from numpy import 文字轉化為詞向量 def loaddataset postinglist my dog has flea probl...