首先介紹生成模型的概念,然後逐步介紹採用生成模型的步驟。
即對每一種類別ck如果原始資料樣本有k類,生成學習演算法是通過對原始資料類p(分別建立一種資料模型p(
x|ck
)。把待分類資料x分別帶入每種模型中,計算後驗概率p(
ck|x
),選擇最大的後驗概率相應的類別。
x|ck
)與p(
ck)建立資料類模型後,採用貝葉斯定理從而得出後驗概率p(
ck|x
)。對待分類樣本x分別計算屬於每乙個類別的後驗概率p(
ck|x
),取最大可能的類別。ar
gmax
(k)=
p(ck
|x)=
p(x,
ck)p
(x)=
p(x|
ck)p
(ck)
∑jp(
x|cj
)p(c
j)對於連續變數x,我們首先如果給定詳細類條件下資料密度函式p(
x|ck
)分布服從多維高斯分布。同一時候全部類別p(
x|ck
)具有同樣的協方差矩陣∑:
二維高斯分布。同樣方差,不同期望的三個圖形。
實際上,不管是連續型資料還是以下將要介紹的離散型資料(樸素貝葉斯分類),僅僅要如果的分布屬於指數簇函式,都有廣義線性模型的結論。k=2時為sigmoid函式:引數λ為模型的固有引數在如果了資料類密度函式p(k>2時為softmax函式:
x|ck
)的情況下,以下須要對模型的引數進行求解。
比如,上述如果了資料為高斯分布,須要計算先驗概率p(
ck)及引數μk
,∑.我們採用最大化釋然函式的方法求解:
考慮二分類的情況:樣本資料為(x
n,tn
)。樣本總量為n,tn
=1屬於c
1類,總數為n1
;tn=
0屬於c2
類,總數為n2
.如果先驗概率p(
c1)=
π;則p(
c2)=
1−π
釋然函式:
分別求偏導數並令為0,得:
樸素貝葉斯分類器是生成學習演算法的一種。考慮乙個樣本x=
(x1,
x2,x
3...
xd),有d個特徵,每乙個特徵xi
取值為有限的離散值,這時須要對p(
x|y)
建立模型。樸素貝葉斯演算法做了一種非常強的如果:即給定類別y=c的情況下。每種特徵之間相互獨立,即有p(
x1|y
,x2)
=p(x
1|y)
;p(x
1,x2
|y)=
p(x1
|y)p
(x2|
y)所以有:
條件類概率p(
x|y)
可依據資料型別建立不同的形式:
樸素貝葉斯儘管做了非常強的特徵獨立性如果,卻對在文字分類的情況效果非常好。
首先收集全部樣本資料**現過的詞,建立乙個有序字典,長度為d。對待分類文字x依據字典建立乙個長度為d詞向量,x=
(x1,
x2,x
3,..
..,x
d),每種特徵xj
∈。即xj
=1表示字典中第j個詞在此文字**現過;反之,xj
=0表示字典中第j個詞沒有在文字**現過,採用伯努利分布p(
x,y)
=p(y
)p(x
|y)=
p(y)
∏dj=
1ber
(xj|
μjc)
。 定義:ϕi
|y=0
=p(x
i=1|
yi=0
),ϕi
|y=1
=p(x
i=1|
yi=1
),ϕy
=p(y
=1)
釋然函式:
最大釋然預計得:
訓練出模型後,對待分類樣本依據貝葉斯定理。計算每種類別的後驗概率,選擇最大的後驗概率類別:
在對文字分類的情況下,假如我們訓練分類器採用的訓練文字全部xj
都為0時。這時模型引數ϕj
|y=0
=0,ϕ
j|y=
1=0。這時如果須要對待乙個文字x分類且xj
=1,依據上述樸素貝葉斯方法,得到每種後驗概率都為0,即p(
y=1|
x)=0
,p(y
=0|x
)=0。這是因為上述乘法的緣故,根本原因是ϕj
|y=0
=0,ϕ
j|y=
1=0。因為樣本量有限,預測某個事件的發生概率為0,也是不準確的。
為了解決這樣的情況。能夠模型引數的分子加上1,同一時候保持和為1。,稱為拉普拉斯平滑。
機器學習筆記 概率生成模型
假設有兩類資料,每一類都有若干個樣本 概率生成模型認為每一類資料都服從某一種分布,如高斯分布 從兩類訓練資料中得到兩個高斯分布的密度函式,具體的是獲得均值和方差兩個引數 測試樣本輸入到其中乙個高斯分布函式,得到的概率值若大於0.5,則說明該樣本屬於該類,否則屬於另一類。演算法的核心在於獲取分布函式的...
機器學習 生成模型與判別模型詳解
3.如何選擇哪種模型 生成模型 generative model,gm 先對聯合概率p x p x,p x,建模,然後再求取後驗概率模型。判別模型 discriminative model,dm 從資料集d中直接估計後驗概率模型 p 1 x p 2 x p n x p 1 x p 2 x p n x...
深度學習(八) 概率生成模型
最開始知道生成模型和判別模型,是在李航的統計學習方法裡,當時的理解是 生成模型,就是同時考慮了x和y的隨機性,也就是說二者都是隨機變數 判別模型,就是只考慮了y的隨機性,而x並不是個隨機變數,即使x存在於條件中,但是並沒有p x 這種說法。當時同時也知道了,樸素貝葉斯和隱馬爾可夫都是生成模型,最主要...