原理:計算輸入為x時(x為向量),屬於c1 c2....ck分類的概率為p1 p2.....pk,其中若概率最大的為pi, 則對應的ci最有可能是x應該劃分到的類別。
至於詳細內容, 演算法雜貨鋪------分類演算法之樸素貝葉斯分類(***** bayesian classification)已經講述得比較詳細,也通俗易懂,就不贅述了。
請看完上文,再看下面的話:
實現起來, 其實也就是通過原先對訓練資料的「統計」出來的結果,例如p(x1=x1 | c1)在結果為c1類的資料中,第乙個x1為x1的概率(可以統計出來),將x1、x2....xn的當前值代入, 計算p(c=ci)p(x1=x1|ci)p(x2=x2|ci)...p(xn=xn|ci)。
如果你問我,上式右邊的意思是求當x=x的時候(x1=x1,x2=x2...)分類為ci的概率嘛 那為什麼不直接求 p(c=ci)*p(x1=x1,x2=x2....xn=xn|ci)呢?
其實,上面的式子的意思就是下面式子, 不過下面式子算出來的概率不準確, 訓練樣本數量遠小於所需樣本數量(不知到可否估算出至少需要多少樣本,erm一致收斂?不過可以確定的是,很難達到) 而我們這裡就是使用概率的方法,因為統計單個單個的概率比籠統起來的 在所需樣本數目的數量級上是要低很多的,因為「概率恆定?」,而且得出來的結果是比較接近真實值的
樸素貝葉斯分類
1 貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。2 樸素貝葉斯的思想基礎是這樣的 對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。通俗來說,就好比這麼個道理,你在街上看到乙個黑人,我問你你猜這哥們 來的,...
樸素貝葉斯分類
摘自寫在公司內部的wiki 要解決的問題 表中增加欄位classification,有四個取值 0 初始值,未分類 1 positive 2 normal 99 negative review submit前,由樸素貝葉斯分類器決定該條review的flag屬於negative還是positive ...
分類 樸素貝葉斯
原始的貝葉斯公式為 p b a p a b p a p a b p b p a 1 在分類問題中,y為類別,x為樣本特徵,則已知待 的樣本特徵 x 它為類別yi 的概率為 p yi x p x yi p y i p x p yi jp xj y i p x 2 p yi 類別為y i的樣本 數總樣本...