最大熵模型由最大熵原理推導而來。最大熵原理是概率模型的學習的乙個準則,最大熵原理認為,學習概率模型時,在所有概率模型中,熵最大的模型時最好的模型,通常利用約束條件來確定概率模型的集合。所以,最大熵原理也可表述為在滿足約束條件的模型集合中選取熵最大的模型。
假設離散隨機變數
x 的概率分布是p(
x),則其熵為 h(
p)=−
∑xp(
x)logp(x
) 且滿足不等式:0≤
h(p)
≤log
|x|
,其中等號當且僅當隨機變數服從隨機分布時右邊的等號成立。直觀地將,最大熵原理認為要選擇的概率模型首先必須滿足已有的事實,即在約束條件下,沒有更多的額外條件前,哪些不確定的部分是「等可能的」。最大熵原理是通過熵的最大化來表示等可能性。
給定乙個訓練集d=
,假設分類模型是乙個概率分布p(
y|x)
;x表示輸入,屬於輸入空間;
y表示輸出,屬於輸出空間,分類模型的作用就是對於給定的輸入以條件概率給出輸出。學習的目標是使用最大熵原理選擇最好的分類模型。
假設資料集
d 的聯合分布p(
x,y)
的經驗分布為p~
(x,y
) 和邊緣分布p(
x)的經驗邊緣分布p~
(x) : p~
(x=x
,y=y
)=∑m
i=1i
mp~(
x=x)
=∑mi
=1im
定義特徵函式f(
x,y)
表徵輸入和輸出之間的某種的關係: f(
x,y)
= 定義在條件概率p(
y∣x)
的條件熵為: h(
p)=−
∑x,y
p~(x
)p(x
,y)logp(
y∣x)
則模型集合
c 中條件熵h(
p)最大的模型稱為最大熵模型。
最大熵模型的求解問題可以轉化為帶約束的最優化問題,表述為:
maxh(p
)=−∑
x,yp
~(x)
p(x,
y)logp(y
∣x)⇒
min−h(
p)s.
t.⎧⎩
⎨⎪⎪e
p(fi
)=ep
~(fi
),i=
1,2,
⋯,n∑
yp(y
∣x)=
1 對於帶約束的最優化問題,最先想到lagrange乘子法,構建拉格朗日函式. l(
p,w)
=−h(
p)+w
0(1−
∑yp(
y∣x)
)+∑i
=1nw
i(ep
~(fi
)−ep
(fi)
)=∑x
,yp~
(x)p
(x,y
)logp(
y∣x)
+w0(
1−∑y
p(y∣
x))+
∑i=1
nwi(
∑x,y
p~(x
,y)f
i(x,
y)−∑
x,yp
~(x)
p(y∣
x)fi
(x,y
))最優化的原始問題可以寫為:
minp∈c
maxwl(
p,w)
其對偶問題為:
maxw
minp∈c
l(p,
w)因為優化問題的目標函式是凸的,所有原問題和對偶問題等價。對於對偶問題中的最小化問題,可以使拉格朗日函式l 對
p求導並使之為0,即: ∂l
(p,w
)∂p(
y∣x)
=∑x,
yp~(
x)(logp(
y∣x)
+1)−
∑yw0
−∑i=
1nwi
(∑x,
yp~(
x)fi
(x,y
))=∑
x,yp
~(x)
(logp(
y∣x)
+1)−
∑x,y
p~(x
)w0−
∑x,y
p~(x
)(∑i
=1nw
ifi(
x,y)
)=0
當p~(
x)>
0 時,可得: p(
y∣x)
=exp(∑
i=1n
wifi
(x,y
)+w0
−1)=
exp(∑n
i=1w
ifi(
x,y)
)exp(1
−w0)
=p(y
∣x)1
=p(y
∣x)∑
yp(y
∣x)=
exp(∑n
i=1w
ifi(
x,y)
)∑yexp(∑
ni=1
wifi
(x,y
))=exp(∑
ni=1
wifi
(x,y
))zw
(x)
那麼將上式帶入拉格朗日函式,可以將問題轉化為:
maxwl(
w)上述中的l(
w)稱為
對偶函式
, 對偶
問題極大
化問題等
價於最大
熵模型的
極大似然
估計【可推導】
references:
[1]李航:《統計學習方法》
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...
最大熵模型
學習概率模型時,在所有的可能概率模型 分布 中,熵最大的模型是最好的模型。通常根據約束條件來確定概率模型的集合,所以也可理解為 在滿足約束條件的模型集合中選取熵最大的模型。假設離散隨機變數 x 的概率分布是p x 則其熵是 h p xp x lo gp x 熵滿足不等式 0 h p lo g x 其...