最大熵(maximum entropy model)由最大熵原理推導實現。這裡首先敘述一般的最大熵原理,然後講解最大熵模型的推導,最後給出最大熵模型學習的形式。
最大熵原理是概率模型學習的乙個準則。最大熵原理認為,學習概率模型時,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。
最大熵原理也可以表述為在滿足約束條件的模型中選取熵最大的模型。
假設離散型隨機變數x的概率分步是p(
x),則其熵 h(
p)=−
∑xp(
x)logp(x
) 熵滿足下列不等式: 0≤
h(p)
≤log|x
| 式中,|x|
是x的取值個數,當且僅當x的分步是均勻分布時右邊的等號成立。
當x服從均勻分布時,熵最大。
最大熵原理應用到分類得到最大熵模型。
假設分類模型是乙個條件概率分布p(
y|x)
。 給定乙個訓練集t,學習的目標是用最大熵原理選擇最好的分類模型。
首先考慮模型應該滿足的條件。給定訓練集,可以確定聯合分步p(
x,y)
的經驗分步和邊緣分布p(
x)的經驗分布,分別以p˜
(x,y
) 和p˜
(x) 。
用特徵函式(feature function)f(
x,y)
描述輸入x和輸出y之間的某乙個事實。其定義是 f(
x,y)
={10
x與y滿足某
一事實否
則 特徵函式f(
x,y)
關於經驗分布p˜
(x,y
) 的期望值,用ep
˜(f)
表示。 ep
˜(f)
=∑x,
yp˜(
x,y)
f(x,
y)特徵函式f(
x,y)
關於模型p(
y|x)
與經驗分布p˜
(x) 的期望值,用ep
(f) 表示。 ep
(f)=
∑x,y
p˜(x
)p(y
|x)f
(x,y
) 如果模型能夠獲取訓練資料中的資訊,那麼就可以假設這兩個期望值相等,即 ep
(f)=
ep˜(
f)(6.10)
或 ∑x
,yp˜
(x)p
(y|x
)f(x
,y)=
∑x,y
p˜(x
,y)f
(x,y
)(6.11)
我們將式(6.10)或式(6.11)作為模型學習的約束條件。假如由n個特徵函式fi
(x,y
),i=
1,..
.,n,
那麼就有n個約束條件。
將約束最優化的原始問題轉換為無約束最優化的對偶問題。通過求解對偶問題求解原始問題。
參考資料
【機器學習】logistic regression 的前世今生(理論篇)
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...
最大熵模型
學習概率模型時,在所有的可能概率模型 分布 中,熵最大的模型是最好的模型。通常根據約束條件來確定概率模型的集合,所以也可理解為 在滿足約束條件的模型集合中選取熵最大的模型。假設離散隨機變數 x 的概率分布是p x 則其熵是 h p xp x lo gp x 熵滿足不等式 0 h p lo g x 其...