機器學習具體解釋 概率生成模型與樸素貝葉斯分類器

2022-10-11 11:00:15 字數 3348 閱讀 1628

首先介紹生成模型的概念,然後逐步介紹採用生成模型的步驟。

即對每一種類別ck

分別建立一種資料模型p(

x|ck

)。把待分類資料x分別帶入每種模型中,計算後驗概率p(

ck|x

),選擇最大的後驗概率相應的類別。

如果原始資料樣本有k類,生成學習演算法是通過對原始資料類p(

x|ck

)與p(

ck)建立資料類模型後,採用貝葉斯定理從而得出後驗概率p(

ck|x

)。對待分類樣本x分別計算屬於每乙個類別的後驗概率p(

ck|x

),取最大可能的類別。ar

gmax

(k)=

p(ck

|x)=

p(x,

ck)p

(x)=

p(x|

ck)p

(ck)

∑jp(

x|cj

)p(c

j)對於連續變數x,我們首先如果給定詳細類條件下資料密度函式p(

x|ck

)分布服從多維高斯分布。同一時候全部類別p(

x|ck

)具有同樣的協方差矩陣∑:

二維高斯分布。同樣方差,不同期望的三個圖形。

實際上,不管是連續型資料還是以下將要介紹的離散型資料(樸素貝葉斯分類),僅僅要如果的分布屬於指數簇函式,都有廣義線性模型的結論。k=2時為sigmoid函式:引數λ為模型的固有引數

k>2時為softmax函式:

在如果了資料類密度函式p(

x|ck

)的情況下,以下須要對模型的引數進行求解。

比如,上述如果了資料為高斯分布,須要計算先驗概率p(

ck)及引數μk

,∑.我們採用最大化釋然函式的方法求解:

考慮二分類的情況:樣本資料為(x

n,tn

)。樣本總量為n,tn

=1屬於c

1類,總數為n1

;tn=

0屬於c2

類,總數為n2

.如果先驗概率p(

c1)=

π;則p(

c2)=

1−π

釋然函式:

分別求偏導數並令為0,得:

樸素貝葉斯分類器是生成學習演算法的一種。考慮乙個樣本x=

(x1,

x2,x

3...

xd),有d個特徵,每乙個特徵xi

取值為有限的離散值,這時須要對p(

x|y)

建立模型。樸素貝葉斯演算法做了一種非常強的如果:即給定類別y=c的情況下。每種特徵之間相互獨立,即有p(

x1|y

,x2)

=p(x

1|y)

;p(x

1,x2

|y)=

p(x1

|y)p

(x2|

y)所以有:

條件類概率p(

x|y)

可依據資料型別建立不同的形式:

樸素貝葉斯儘管做了非常強的特徵獨立性如果,卻對在文字分類的情況效果非常好。

首先收集全部樣本資料**現過的詞,建立乙個有序字典,長度為d。對待分類文字x依據字典建立乙個長度為d詞向量,x=

(x1,

x2,x

3,..

..,x

d),每種特徵xj

∈。即xj

=1表示字典中第j個詞在此文字**現過;反之,xj

=0表示字典中第j個詞沒有在文字**現過,採用伯努利分布p(

x,y)

=p(y

)p(x

|y)=

p(y)

∏dj=

1ber

(xj|

μjc)

。 定義:ϕi

|y=0

=p(x

i=1|

yi=0

),ϕi

|y=1

=p(x

i=1|

yi=1

),ϕy

=p(y

=1)

釋然函式:

最大釋然預計得:

訓練出模型後,對待分類樣本依據貝葉斯定理。計算每種類別的後驗概率,選擇最大的後驗概率類別:

在對文字分類的情況下,假如我們訓練分類器採用的訓練文字全部xj

都為0時。這時模型引數ϕj

|y=0

=0,ϕ

j|y=

1=0。這時如果須要對待乙個文字x分類且xj

=1,依據上述樸素貝葉斯方法,得到每種後驗概率都為0,即p(

y=1|

x)=0

,p(y

=0|x

)=0。這是因為上述乘法的緣故,根本原因是ϕj

|y=0

=0,ϕ

j|y=

1=0。因為樣本量有限,預測某個事件的發生概率為0,也是不準確的。

為了解決這樣的情況。能夠模型引數的分子加上1,同一時候保持和為1。,稱為拉普拉斯平滑。

機器學習筆記 概率生成模型

假設有兩類資料,每一類都有若干個樣本 概率生成模型認為每一類資料都服從某一種分布,如高斯分布 從兩類訓練資料中得到兩個高斯分布的密度函式,具體的是獲得均值和方差兩個引數 測試樣本輸入到其中乙個高斯分布函式,得到的概率值若大於0.5,則說明該樣本屬於該類,否則屬於另一類。演算法的核心在於獲取分布函式的...

機器學習 生成模型與判別模型詳解

3.如何選擇哪種模型 生成模型 generative model,gm 先對聯合概率p x p x,p x,建模,然後再求取後驗概率模型。判別模型 discriminative model,dm 從資料集d中直接估計後驗概率模型 p 1 x p 2 x p n x p 1 x p 2 x p n x...

深度學習(八) 概率生成模型

最開始知道生成模型和判別模型,是在李航的統計學習方法裡,當時的理解是 生成模型,就是同時考慮了x和y的隨機性,也就是說二者都是隨機變數 判別模型,就是只考慮了y的隨機性,而x並不是個隨機變數,即使x存在於條件中,但是並沒有p x 這種說法。當時同時也知道了,樸素貝葉斯和隱馬爾可夫都是生成模型,最主要...