貝葉斯分類器

2022-09-16 06:15:12 字數 2163 閱讀 7262

首先在貝葉斯分類器之前先說貝葉斯理論

(1)貝葉斯分類器

假設有n種可能的分類標記,即為y= λij 是將乙個真實的標記cj的樣本誤分類為ci發損失,後驗概率p(ci|x)可獲得樣本x分類為ci的期望,則在樣本x上的「條件風險」是

我們需要最小化這個風險,也就是在每個樣本上選擇那個能使條件風險r(c|x)最小的類別標記,即

如果λij的取值為

則此時的條件風險為

此時的最小化分類錯誤率的貝葉斯分類器為:

即對每個樣本x,選擇能夠使後驗概率p(c|x)最大的類別標記。

通過上邊的轉化,只需求得p(c|x)的最大值即可,這是利用的是貝葉斯定理,可得以下公式

其中,p(c)表示某個記錄所有類標記的概率,也就是說,隨機乙個記錄,屬於某乙個類的概率,這個值可以根據大數定理來求得。

而p(x|c)表示的是樣本x相對於類標記c的條件概率。

而p(x)對於每乙個x的值都是一樣的,因此這個問題,最終轉化為求p(c)*p(x|c)最大的值。值得注意的是,p(x|c)它涉及到了關於x的所有屬性的聯合概率。

(2)貝葉斯的先驗後驗概率

(3)樸素貝葉斯分類器

通過(1)中的推到,可以得最終的問題即為求

的最大值,但是這時候p(x|c)是所有屬性的聯合概率,在樸素貝葉斯分類器中,假設所有的屬性都是互相獨立的,因此最最後的問題,可以轉化為,

其中d表示屬性的數目,xi表示在第i個屬性上x的取值。

因此可以得到樸素貝葉斯分類器的表示式:

從上式可以得到,樸素貝葉斯分類器的訓練過程就是基於訓練集d來估計類的先驗概率p(c),並為每個屬性估計條件概率p(xi|c)

令dc表示訓練集d中第c類樣本組成的集合,若有充足的獨立同分布的樣本,怎容易估計出類的先驗概率

對於離散的屬性,dc,xi表示dc中的第i個屬性上取值為xi的樣本組成的集合,則p(xi|c)可估計為

對於連續的屬性,μc,i 表示的是連續屬性的均值,另乙個表示的是方差

拉普拉斯平滑:若某個屬性的值在訓練集中與某個類沒有同時出現過,用上邊的方法估計是,連乘會使得到的概率為零,因此修正為一下式子:

n表示訓練集d中可能的類別,ni表示第i個屬性的可能的取值數。

由於上邊的方法是假設屬性之間是獨立的,但是這在現實生活中是很少的,大多數情況下屬性之間都不是獨立的。因此提出的半樸素貝葉斯分類器

(4)半樸素貝葉斯分類器

半樸素貝葉斯分類器就是考慮一部分屬性間的相互依賴資訊,從而不需要進行完全聯合概率計算,又不至於徹底忽略了比較強的屬性依賴關係。「獨依賴估計」是一種常用的方式,獨依賴就是假設每個屬性在類別之外最多依賴於其他乙個屬性,即

pai是xi依賴的屬性,稱為xi的父屬性。

此時問題轉化為求下式的最大值。

其中其中,ni是第i個屬性上可能的取值數,dcxi是類別為c且在第i個屬性值上取值為xi的樣本集合,dc,xi,xj 是類別c且在第i和第j個屬性上取值分別為xi,xj的樣本的集合。

貝葉斯分類器

程式設計實現貝葉斯分類器。編寫matlab函式,輸入為 a 均值向量 b c類問題的類分布的協方差矩陣 c c類的先驗概率 d 基於上述類的包含列向量的矩陣x。根據貝葉斯規則,輸出為乙個n維向量,它的第i列表示相應輸入向量x的第i列的類別。clear all clc mu 1 1 sigma 9 4...

樸素貝葉斯分類器

p a b frac 類別 結果 a出現在特徵b樣本裡的概率 frac 假設乙個學校裡有60 男生和40 女生。女生穿褲子的人數和穿裙子的人數相等,所有男生穿褲子。隨機看到了乙個穿褲子的學生,那麼這個學生是女生的概率是多少?begin 特徵 穿褲子 類別 女生 p 女生 穿褲子 frac frac ...

樸素貝葉斯分類器

樸素貝葉斯分類器是用來做分類的乙個簡便方法。在貝葉斯公式的基礎上,引人條件獨立的假設,使得貝葉斯分類器具有簡單易行的優點和假設時常與實際不符的缺點。下面簡單介紹一下樸素貝葉斯分類器。首先規定一下資料格式 輸入的每乙個樣本為 其中 i 為樣本編號,x 為樣本的特徵,是乙個 n 維向量,x cdots ...