學習概率模型時,在所有的可能概率模型(分布)中,熵最大的模型是最好的模型。通常根據約束條件來確定概率模型的集合,所以也可理解為:在滿足約束條件的模型集合中選取熵最大的模型。
假設離散隨機變數
x 的概率分布是p(
x),則其熵是: h(
p)=−
∑xp(
x)lo
gp(x
) 熵滿足不等式:
0<=h(
p)<=lo
g|x|
其中|x
| 是
x 的取值個數,當且僅當
x的分布是均勻分布時候右邊等號成立,也就是說
x 服從均勻分布時候,熵最大。
簡單的理解是:最大熵原理是要選擇的概率模型在滿足已知事實的情況下,那些不確定的部分,被認為是」等可能的」。
假設分類模型是乙個條件概率分布
x,以條件概率p(
y|x)
輸出y
給定訓練資料集:
學習的目的是根據最大熵原理選出最好的分類模型,使各類資料盡可能的分開。
首先考慮模型滿足的條件。給定訓練集,可以確定聯合分布p(
x,y)
的經驗分布和邊緣分布p(
x)的經驗分布,分布以p^
(x,y
)和p^
(x) 表示。
其中,v(x
=x,y
=y) 表示訓練資料中樣本(x
,y) 出現的頻數,v(
x=x)
表示訓練資料中輸入
x 出現的頻數,
n表示訓練樣本的容量.
定義特徵函式f(
x,y)
描述輸入
x 和輸出
y之間的某乙個事實,其定義是
特徵函式f(
x,y)
關於經驗分布p^
(x,y
) 的期望值,用ep
^(f)
表示:
特徵函式f(
x,y)
關於模型p(
y|x)
與經驗分布p^
(x) 的期望值,用ep
(f) 表示:
如果模型能夠很好的獲取訓練資料中的資訊,即:p(
y|x)
能夠很好的表示p^
(x,y
) ,可以假設上面的兩個期望是相等的,即:
上式可作為模型學習的約束條件。如果有n分特徵函式fi
(x,y
),i=
1,2,
...,
n ,那麼就有n個約束條件。
假設滿足所有約束條件的模型集合是:
定義在條件概率分布p(
y|x)
上的條件熵為:
則,模型集合
c 中的條件熵h(
p)最大的模型稱為最大熵模型,上面的對數是自然對數。
最大熵模型的學習過程是求解最大熵模型的過程,最大熵模型的學習可以形式化為滿足約束條件下的最優化問題
根據上式,對於給定的訓練資料集
(x,y
),i=
1,2,
3,..
.n,最大熵模型的學習等價約束最優問題:
求解最大化問題可以轉化為求解最小化問題:
根據拉格朗日乘子法可以將有約束問題的最優問題轉化為無約束最優問題
由於拉格朗日函式l(
p,w)
是p的凸函式,原始問題的解,與對偶問題的解等價,就可以通過求對偶問題來求解原問題。
先求對偶問題內部的極小化問題
w的函式,將其記住:
(x) 稱為規範化因子;fi
(x,y
) 是特徵函式;wi
是特徵的權值,pw
=pw(
y|x)
就是在引數
w 下的最大熵模型。
之後求解對偶問題外部的最大化問題:
這樣,可應用最優化演算法求對偶問題
,用來表示p∗
屬於c ,這樣得到的p∗
=pw∗
=pw∗
(y|x
)就是學習到的最大熵模型。也就是說最大熵模型轉化為對
最大熵模型學習歸結為以似然函式為目標函式的最優化問題,可通過迭代演算法求解,從最優化的觀點看,這時的目標函式是凸函式,存在全域性最優解,可根據迭代尺度法,梯度下降法,牛頓法,擬牛頓法等求解。
在李航的統計學習方法中,還講了對偶函式的極大化等價於最大熵模型的極大似然估計,以及求解目標函式的改進的迭代尺度法和bfgs演算法,這個就不多說了,這個之前在最優化理論與演算法的課程中我也學過。
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...
最大熵模型
最大熵 maximum entropy model 由最大熵原理推導實現。這裡首先敘述一般的最大熵原理,然後講解最大熵模型的推導,最後給出最大熵模型學習的形式。最大熵原理是概率模型學習的乙個準則。最大熵原理認為,學習概率模型時,在所有可能的概率模型 分布 中,熵最大的模型是最好的模型。最大熵原理也可...