樸素貝葉斯法

2022-05-22 11:54:15 字數 1610 閱讀 8281

樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。簡單來說,樸素貝葉斯分類器假設樣本每個特徵與其他特徵都不相關。舉個例子,如果一種水果具有紅,圓,直徑大概4英吋等特徵,該水果可以被判定為是蘋果。儘管這些特徵相互依賴或者有些特徵由其他特徵決定,然而樸素貝葉斯分類器認為這些屬性在判定該水果是否為蘋果的概率分布上獨立的。儘管是帶著這些樸素思想和過於簡單化的假設,但樸素貝葉斯分類器在很多複雜的現實情形中仍能夠取得相當好的效果。樸素貝葉斯分類器的乙個優勢在於只需要根據少量的訓練資料估計出必要的引數(離散型變數是先驗概率和類條件概率,連續型變數是變數的均值和方差)。

貝葉斯分類模型如下:

其中,x表示屬性集,y表示類變數,p(y)為先驗概率,p(x|y)為類條件概率,p(x)為證據,p(y|x)為後驗概率。貝葉斯分類模型就是用先驗概率p(y)、類條件概率p(x|y)和證據p(x)來表示後驗概率。在比較y的後驗概率時,分母中的證據p(x)總是常數,因此可以忽略不計。先驗概率p(y)可以通過計算訓練集中屬於每個類的訓練記錄所佔的比例很容易估計。對類條件概率p(x|y)的估計,不同的實現決定不同的貝葉斯分類方法,常見的有樸素貝葉斯分類法和貝葉斯信念網路。

資料集如下:

從該資料集計算得到的先驗概率以及每個離散屬性的類條件概率、連續屬性的類條件概率分布的引數(樣本均值和方差)如下:

先驗概率:p(yes)=0.3;p(no)=0.7

p(有房=是|no) = 3/7

p(有房=否|no) = 4/7

p(有房=是|yes) = 0

p(有房=否|yes) = 1

p(婚姻狀況=單身|no) = 2/7

p(婚姻狀況=離婚|no) = 1/7

p(婚姻狀況=已婚|no) = 4/7

p(婚姻狀況=單身|yes) = 2/3

p(婚姻狀況=離婚|yes) = 1/3

p(婚姻狀況=已婚|yes) = 0

年收入:

如果類=no:樣本均值=110; 樣本方差=2975

如果類=yes:樣本均值=90; 樣本方差=25

——》待**記錄:x=

p(no)*p(有房=否|no)*p(婚姻狀況=已婚|no)*p(年收入=120k|no)=0.7*4/7*4/7*0.0072=0.0024

p(yes)*p(有房=否|yes)*p(婚姻狀況=已婚|yes)*p(年收入=120k|yes)=0.3*1*0*1.2*10-9=0

由於0.0024大於0,所以該記錄分類為no。

從上面的例子可以看出,如果有乙個屬性的類條件概率等於0,則整個類的後驗概率就等於0。僅僅使用記錄比例來估計類條件概率的方法顯得太脆弱了,尤其是當訓練樣例很少而屬性數目又很多時。解決該問題的方法是使用m估計方法來估計條件概率:

樸素貝葉斯法

貝葉斯理論體系都是建立在那個眾所周知的貝葉斯公式上,貝葉斯原理簡單,一些名家所言,裡面蘊含著深奧的道理,樸素貝葉斯法是一種簡單的分類方法,在機器學習領域廣泛應用。在網上經常看到各個版本的貝葉斯分類器的實現,不過總是感覺由以下兩點沒有陳述清楚,其一,針對連續型變數的處理沒有給出具體的顯式表示式 其二,...

樸素貝葉斯法

文章記錄的內容是參加datawhale的組隊學習統計學習方法 第二版 習題解答過程中的筆記與查缺補漏!參考解答位址 樸素貝葉斯法。解答思路 先回顧一下用極大似然法估計樸素貝葉斯引數的過程。既然是估計引數,那麼先明確一下樸素貝葉斯中有哪些引數 p y c k 和 p x j x j mid y c k...

樸素貝葉斯

樸素貝葉斯演算法是一種基於概率統計的分類方法,它主要利用貝葉斯公式對樣本事件求概率,通過概率進行分類。以下先對貝葉斯公式做個了解。對於事件a b,若p b 0,則事件a在事件b發生的條件下發生的概率為 p a b p a b p b 將條件概率稍作轉化即可得到貝葉斯公式如下 p a b p b a ...