機器學習進度(十一) 樸素貝葉斯演算法

2022-06-19 14:45:14 字數 2598 閱讀 1296

p(x) : 取值在[0, 1]

在講這兩個概率之前我們通過乙個例子,來計算一些結果:

那麼其中有些問題我們計算的結果不正確,或者不知道計算,我們有固定的公式去計算

條件概率:就是事件a在另外乙個事件b已經發生條件下的發生概率

注意:此條件概率的成立,是由於a1,a2相互獨立的結果(記憶)

這樣我們計算結果為:

p(程式設計師, 勻稱) =  p(程式設計師)p(勻稱) =3/7*(4/7) = 12/49p(產品, 超重|喜歡) = p(產品|喜歡)p(超重|喜歡)=1/2 *  1/4 = 1/8
那麼,我們知道了這些知識之後,繼續回到我們的主題中。樸素貝葉斯如何分類,這個演算法經常會用在文字分類,那就來看文章分類是乙個什麼樣的問題?

這個了類似乙個條件概率,那麼仔細一想,給定文章其實相當於給定什麼?結合前面我們將文字特徵抽取的時候講的?所以我們可以理解為

但是這個公式怎麼求?前面並沒有參考例子,其實是相似的,我們可以使用貝葉斯公式去計算

公式分為三個部分:

p(f1,f2,…) **文件中每個詞的概率

如果計算兩個類別概率比較:

所以我們只要比較前面的大小就可以,得出誰的概率大

科技:p(科技|影院,支付寶,雲計算) =

機器學習演算法 樸素貝葉斯

樸素貝葉斯 na ve bayes 屬於監督學習演算法,實現簡單,學習效率高 由於建立在貝葉斯理論之上,涉及到統計學方法,所以在大樣本量下會有較好的表現,當然樣本需要在一定程度上反映真實分布情況。該演算法的一條假設為 輸入的特徵向量的各分量之間兩兩條件獨立。因為這條假設比較嚴格,能夠完全符合該假設的...

機器學習 樸素貝葉斯

樸素貝葉斯原理 1.貝葉斯公式 2.樸素貝葉斯的模型 3.後驗概率最大化的含義 4.樸素貝葉斯的引數估計 4.1.特徵是離散值 假設符合多項式分布 4.2.特徵是稀疏的離散值 假設符合伯努利分布 4.3.特徵是連續值 假設符合正態分佈 5.樸素貝葉斯演算法過程 6.樸素貝葉斯演算法小結 scikit...

機器學習基礎演算法 樸素貝葉斯

1 為什麼可以使用bayes對未知資料進行分類 首先要了解bayes的概率 條件概率,以及將條件概率應用到分類中 bayes的概率是乙個逆向概率,詳細內容檢視bayestheory.md 可以使用bayes主要是因為在知道某個條件的基礎上,可以反推某一事件發生的概率 在機器學習中使用的樣本資料就是我...