十九 機器學習之路 樸素貝葉斯分類

2021-08-13 11:32:18 字數 2635 閱讀 4849

最近在看周志華《機器學習》的貝葉斯分類器這一章時覺得書上講的很難理解,很多專業術語和符號搞的我頭大,大學時候概率論我還是學的還是不錯的,無奈網上搜了搜前輩的部落格,看到一篇把樸素貝葉斯講的很簡單的文章,頓時豁然開朗。關於貝葉斯分類且聽我慢慢道來:

上圖可以很好的說明了貝葉斯的公式,p(a|b)就是在b事件已經發生的基礎上,發生a的概率。同理,p(b|a)就是在a事件已經發生的基礎上,發生b的概率。網上看到過乙個很簡單的貝葉斯概率的例子:

例如:一座別墅在過去的 20 年裡一共發生過 2 次被盜,別墅的主人有一條狗,狗平均每週晚上叫 3 次,在盜賊入侵時狗叫的概率被估計為 0.9,問題是:在狗叫的時候發生入侵的概率是多少?

我們假設 a 事件為狗在晚上叫,b 為盜賊入侵,則以天為單位統計,p(a) = 3/7,p(b) = 2/(20*365) = 2/7300,p(a|b) = 0.9,按照公式很容易得出結果:p(b|a) = 0.9*(2/7300) / (3/7) = 0.00058

上述例子中:

看完了以上的介紹,各位同學心裡大概有點數了吧,其實貝葉斯分類器就是通過條件概率來進行分類的。舉乙個簡單的例子,我們聽到一段非常非常嗲的女生的聲音,讓你判斷是a.志玲姐姐; b.門口吆喝賣大蔥的大媽; c.女漢子同學;毫無疑問,我們都會選擇a,因為我們知道志玲姐姐說話的聲音很嗲,在這幾個選項當中可能性最大。當然,有的同學就會說我那個女漢子同學平時私下說話超級超級嗲的,但是在沒有這些可用資訊的時候,我們選擇志玲姐姐是概率最大的選項,這其實就是貝葉斯分類器的思想基礎。

關於樸素貝葉斯分類器的內容,推薦大家參考前輩阮一峰的部落格——樸素貝葉斯分類器的應用,講的淺顯易懂,非常適合廣大剛入門機器學習的小夥伴。

另外演算法雜貨鋪——分類演算法之樸素貝葉斯分類(***** bayesian classification)

這篇部落格介紹貝葉斯分類器內容較豐富一點,而且不難懂。相信大家看完這兩篇部落格就能夠完全搞懂貝葉斯分類。簡單總結一下樸素貝葉斯裡三個重要的點:

樸素貝葉斯分類的基本原理就是貝葉斯定理,簡單來說我們現在手頭有個需要分類的資料。這個資料的特徵屬性值為x1

=(a1

,a2,

...,

am) ,假設它有m個特徵值,類別只有a類和b類兩種類別。想要根據x1

的特徵值來判斷它屬於哪個類別的概率最高,從概率的角度來進行分類。

需要計算p(

a|x1

) 和p(

b|x1

) ,並進行大小比較確定分類結果。

根據貝葉斯定理,計算兩種分類的條件概率: p(

a|x1

)=p(

a|a1

,a2,

...,

am)=

p(a1

,a2,

...,

am|a

)⋅p(

a)p(

a1,a

2,..

.,am

)=p(

a1|a

)⋅p(

a2|a

)⋅..

.⋅p(

am|a

)⋅p(

a)p(

a1)⋅

p(a2

)⋅..

.⋅p(

am) p(

b|x1

)=p(

b|a1

,a2,

...,

am)=

p(a1

,a2,

...,

am|b

)⋅p(

b)p(

a1,a

2,..

.,am

)=p(

a1|b

)⋅p(

a2|b

)⋅..

.⋅p(

am|b

)⋅p(

b)p(

a1)⋅

p(a2

)⋅..

.⋅p(

am)

根據計算結果,給出概率最大的分類結果。

在利用樸素貝葉斯進行分類時,需要計算各個劃分的條件概率p(

a1,a

2,..

.,am

|a) ,一般如果特徵屬性取值為離散值,我們根據訓練集就可以輕鬆算出概率。但是,如果特徵屬性取值為連續值的話就很難根據樣本數來求出概率。這個時候我們通常假定連續值服從高斯分布:

只要計算出訓練樣本中各個類別中此特徵項劃分的各均值和標準差,代入上述公式即可得到需要的估計值。

當某個類別下某個特徵項劃分沒有出現過一次時,就會導致p(

ai|a

)=0 ,0乘上其他的數結果為0。這就導致我們求得的條件概率結果不準確。為了解決這個問題,我們引入」拉普拉斯修正」,具體思路如下圖所示:

c|表示分類為c的樣本總數。

樸素貝葉斯分類的理論部分算是講完了,時間不早了,下期說一說樸素貝葉斯的實戰,主要在什麼專案中會用到貝葉斯分類,以及**實現。再見~

機器學習基礎 樸素貝葉斯分類

可以將公式改寫為 c表示乙個分類,f表示屬性對應的資料字段 這裡舉個例子,c代表蘋果,f代表紅色 p 蘋果 紅色 p 紅色 蘋果 xp 蘋果 p 紅色 通過蘋果是紅色的條件概率可以得到紅色是蘋果的條件概率 通過先驗概率可以算出後驗概率 乙個果子是蘋果的概率為0.3 p c 0.3 乙個果子是紅色的概...

樸素貝葉斯分類

1 貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。2 樸素貝葉斯的思想基礎是這樣的 對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。通俗來說,就好比這麼個道理,你在街上看到乙個黑人,我問你你猜這哥們 來的,...

樸素貝葉斯分類

摘自寫在公司內部的wiki 要解決的問題 表中增加欄位classification,有四個取值 0 初始值,未分類 1 positive 2 normal 99 negative review submit前,由樸素貝葉斯分類器決定該條review的flag屬於negative還是positive ...