最大熵模型推導
1.似然函式
概率和似然的區別:概率是已知引數的條件下**未知事情發生的概率,而似然性是已知事情發生的前提下估計模型的引數.我們通常都是將似然函式取最大值時的引數作為模型的引數.
那麼為何要取似然函式取最大值的引數作為模型的引數?我們基於這樣的假設:對於已經發生的事情,在同樣條件下再次發生的概率就會很大.假如模型的引數固定,然後用這個引數固定的模型來**已經發生的事情,這時我們得到的概率不一定很大,並且不同的引數得到概率是不一樣的,但是事實上這個事情已經發生了,也就是說發生這個事情的概率為1,此時我們就需要讓模型對這個事情的**概率越大越好.即概率越大其發生的可能性越大,也就越符合已經發生的事情!
3 最大熵模型原理(對偶函式的極大化):
1)保證模型滿足已知的所有約束.
2)在第一點的基礎上使得模型的熵最大.
最大熵模型的分析過程:
1)從訓練集合中抽取若干特徵.
2) 對於抽取出的每個特徵i,我們使用特徵函式
來表示.當特徵i符合某一條件時,我們將特徵函式設定乙個值1,否則設定0.
3)找出特徵函式的約束條件.為了讓模型擬合訓練資料,我們需要讓:
首先我們需要將上述問題轉化成無條件的最優化問題,這時需要用lagrange定理,但是上述問題並不滿足lagrange定理,於是我們先將最大化問題轉化成最小化問題:
這就是我們所需要的最大熵模型下的概率估計,實際上,對偶問題的極大化等價於最大熵模型的極大似然估計.至此,我們已經得到了最大熵模型的目標估計,而模型中的最優引數則是對偶問題最大時的引數.
於是有:
上式並沒有乙個顯式的解析解,因此需要借助於數值的方法.由於其是乙個光滑的凸函式,所以可以求解的方法很多.可以使用的方法有:
1)通用迭代尺度法(gis: generalized iterative scaling)
2)改進的迭代尺度法(iis: improved iterative scaling)
3)梯度下降演算法
4)擬牛頓法(牛頓法)
其中,前兩個方法是專門為最大熵模型而設計的,後兩種方法為通用的演算法.
6.總結:
此文有較多的公式化簡過程,看起來很複雜.總的來說,最大熵模型是個相對簡單的演算法,簡單來說,它主要就是約束條件+最大化條件熵.其中約束條件主要是提取訓練集的特徵,得到每個特徵的特徵函式,然後將特徵函式關於經驗聯合分布的期望近似為特徵函式關於模型的聯合分布期望,這樣對每個特徵函式都到乙個約束條件,另外,還要附加上
,然後在滿足約束條件的基礎上求最大化條件熵
.
機器學習 最大熵模型推導
先說說熵的定義,假設我們有隨機變數 x 其概率分布為 p x 則其熵為 h p x xp x log p x 條件熵 h p y x xp x yp y x l ogp y x 可以證明,在概率相等的時候,熵可以達到最大值。也可以理解為 最混亂 一般情況下,如果對乙個事物沒有任何的先驗知識,我們傾向...
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...