可以將公式改寫為
c表示乙個分類,f表示屬性對應的資料字段
這裡舉個例子,
c代表蘋果,f代表紅色
p(蘋果|紅色)=p(紅色|蘋果)xp(蘋果)/p(紅色)
通過蘋果是紅色的條件概率可以得到紅色是蘋果的條件概率
通過先驗概率可以算出後驗概率
乙個果子是蘋果的概率為0.3 p(c)=0.3
乙個果子是紅色的概率為0.2 p(f)=0.2
蘋果是紅色的概率為0.7 p(f|c)=0.5
根據公式可以算出紅色的果子是蘋果的概率為 p(a|b)=0.5*0.3/0.2 = 0.75
上邊看了貝葉斯定理,我們將貝葉斯定理擴充套件到多種型別,多種屬性上邊
統計的分類有:蘋果,甜橙,西瓜
統計的屬性有:形狀,外觀顏色,外觀紋理,重量,握感,口感
通過上變的表,可以得到,每種型別的每種屬性對應的概率,如下:
參考貝葉斯定理,
將紅色的屬性擴充套件到其他的屬性,可以得出以下公式
對比上邊蘋果的例子,fi是紅色 fj是甜味,這裡列舉所有屬性聯合起來是蘋果的概率
計算的過程中,對於統計的概率為0的數值,一般會給乙個小於最小值的極小值用來計算,這個叫平滑
兩種屬性下,計算是圓形,口感是甜的
不同種類的概率:
是蘋果的概率:
是甜橙的概率:
是西瓜的概率:
甜橙的概率最大,所以這個水果最大可能是甜橙;
概率的乘積可能會非常小,可以使用數學手法進行轉換,比如取log
準備資料轉換為計算機所能理解的資料,訓練樣本;
建立模型基於樣本訓練,獲取所有水果的概率
分類新資料對於乙個新的資料,根據已有的模型進行分類,這個過程也稱為**
與knn最鄰近對比:樸素貝葉斯需要更多的時間進行模型訓練,,但是對新資料**時,效果更好,時間更短
與決策樹對比:不能提供易於人理解的決策,但可以提供多種決策,支援模糊分類
svm支援向量積:不能直接支援連續值的輸入,案例中將連續值轉換成了離散值便於樸素貝葉斯處理
適用的場景:屬性大部分是離散的,需要支援模糊分類,需要支援快速實時的分類
樸素貝葉斯分類
1 貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。2 樸素貝葉斯的思想基礎是這樣的 對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。通俗來說,就好比這麼個道理,你在街上看到乙個黑人,我問你你猜這哥們 來的,...
樸素貝葉斯分類
摘自寫在公司內部的wiki 要解決的問題 表中增加欄位classification,有四個取值 0 初始值,未分類 1 positive 2 normal 99 negative review submit前,由樸素貝葉斯分類器決定該條review的flag屬於negative還是positive ...
分類 樸素貝葉斯
原始的貝葉斯公式為 p b a p a b p a p a b p b p a 1 在分類問題中,y為類別,x為樣本特徵,則已知待 的樣本特徵 x 它為類別yi 的概率為 p yi x p x yi p y i p x p yi jp xj y i p x 2 p yi 類別為y i的樣本 數總樣本...