pw
(y|x
)=1z
w(x)
exp(∑i
=1nw
ifi(
x,y)
) 其中,zw(
x)=∑
yexp(∑
i=1n
wifi
(x,y
))最大熵模型的學習等價於約束最優化問題:
minp∈c
−h(p
)=∑x
,yp˜
(x)p
(y|x
)logp(
y|x)
s.t.ep
(fi)
−ep˜
(fi)
=0,i
=1,2
,⋯,n
∑yp(y|x
)=1
約束最優化問題轉化為無約束對偶問題,定義拉格朗日函式 l(
p,w)
: l(
p,w)
≡−h(
p)+w
0⎛⎝1
−∑yp
(y|x
)⎞⎠+
∑i=1
nwi(
ep˜(
fi)−
ep(f
i))
最優化的原始問題為
minp∈c
maxwl(
p,w)
對偶問題是
maxw
minp∈c
l(p,
w)求 l(
p,w)
對 p(y
|x) 的偏導數並令為
0 ,得pw
(y|x
)=1z
w(x)
exp(∑i
=1nw
ifi(
x,y)
)其中,zw
(x)=
∑yexp(∑i
=1nw
ifi(
x,y)
) 之後,求解對偶問題外部的極大化問題的出 w∗
. 簡單問題可以令導數為
0 ,複雜的可以參見改進的迭代尺度法(improved iterative scaling,iis)或者擬牛頓法(如bfgs演算法) .f(
x,y)
為特徵函式,定義為 f(
x,y)
={1,
0,x與
y滿足某
一事實否
則
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
學習概率模型時,在所有的可能概率模型 分布 中,熵最大的模型是最好的模型。通常根據約束條件來確定概率模型的集合,所以也可理解為 在滿足約束條件的模型集合中選取熵最大的模型。假設離散隨機變數 x 的概率分布是p x 則其熵是 h p xp x lo gp x 熵滿足不等式 0 h p lo g x 其...
最大熵模型
最大熵 maximum entropy model 由最大熵原理推導實現。這裡首先敘述一般的最大熵原理,然後講解最大熵模型的推導,最後給出最大熵模型學習的形式。最大熵原理是概率模型學習的乙個準則。最大熵原理認為,學習概率模型時,在所有可能的概率模型 分布 中,熵最大的模型是最好的模型。最大熵原理也可...