logistic regression和最大熵模型都是對數線性模型,而對數線性模型屬於廣義線性模型。
最大熵模型屬於運用最大熵原理的多分類模型。我們要清楚兩件事:
什麼是最大熵原理
最大熵模型如何運用最大熵原理
最大熵原理:
在滿足約束條件的模型集合中選擇熵最大的模型。
最大熵模型:
給定訓練集(x1
,y1)
,(x2
,y2)
,...
,(xn
,yn)
(x1,y
1),
(x2
,y2
),..
.,(x
n,y
n),我們要求解p(y
∣x)p(y|x)
p(y∣x)
,需要確定它的形式以及引數。
最大熵模型的形式化表示:
這是乙個約束最優化問題。
求解最大熵模型:
將約束最優化問題轉換為無約束最優化的對偶問題,通過求解對偶問題求解原始問題。
第一步:求對偶問題裡的最下化問題,得到p(y
∣x)p(y|x)
p(y∣x)
的形式
第二步:將形式帶入拉格朗日函式,求對偶問題外層的最大化問題,求出引數www
注意:將p(y
∣x)p(y|x)
p(y∣x)
的形式帶入拉格朗日函式得到的結果,與直接求解p(y
∣x)p(y|x)
p(y∣x)
關於訓練樣本的對數似然最大化是一樣的。
即對偶函式的極大化等價於最大熵模型的極大似然估計。
最大熵模型的一般形式就是:
接下來可以通過對數極大似然估計求解引數。
最大熵模型可以特例化為logistic regression、softmax regression,具體來說, 在logistic regression中,特徵函式可以理解為 當y=0時,對應n個為0的f(x,y); 當y=1時,對應x1,
x2,.
..xn
x_1,x_2,...x_n
x1,x2
,..
.xn
, 即有n個f(x,y),值分別是x1,
x2,.
..xn
x_1,x_2,...x_n
x1,x2
,..
.xn
。softmax regression 則有n*k個特徵函式,其中k是類別,n是樣本維數。
擴充套件:[4]
對於離散變數x, 當x是均勻分布的時候,熵最大;
對於連續變數x, 1)給定均值和方差,當x是高斯分布的時候,熵最大;2)給定區間[a, b], 當x是均勻分布的時候,熵最大; 3) 給定均值,當x是指數分布的時候,熵最大。
[1]
[2] 最大熵模型特例化為logistic regression
[3]
[4]
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...
最大熵模型
學習概率模型時,在所有的可能概率模型 分布 中,熵最大的模型是最好的模型。通常根據約束條件來確定概率模型的集合,所以也可理解為 在滿足約束條件的模型集合中選取熵最大的模型。假設離散隨機變數 x 的概率分布是p x 則其熵是 h p xp x lo gp x 熵滿足不等式 0 h p lo g x 其...