在只掌握了關於未知分布的部分資訊的情況下,符合已知知識分布的概率分布可能有多個,但是熵值最大的概率分布最真實低反映了事件的分布情況。
用於自然語言處理,比如詞義消歧、詞法分析等。
例如:假設隨機變數x有5個取值,需要估算每個值的概率。
假設從一些先驗知識可以得到:
p(a)+p(b)=3/10
p(a)+p(b)+p(c)+p(d)+p(e)=1
滿足以上限制條件的概率分布由無窮多個,在缺少其他資訊的情況下,合理的方法是認為a和b等概率,c、d和e等概率,所以
p(a)=p(b)=3/20
p(c)=p(d)=p(e)=7/30
此處「認為a和b等概率,c、d和e等概率」就用到了最大熵原理。當變數服從均勻分布的時候,熵最大。
那麼最大熵原理的實質就是,在已知部分知識的前提下,關於未知分布最合理的推斷就是符合已知知識最不確定或最隨機的推斷,這是我們可以作出的唯一不偏不倚的選擇,任何其它的選擇都意味著我們增加了其它的約束和假設,這些約束和假設根據我們掌握的資訊無法作出。
-「最大熵原理」。
根據最大熵模型的思想,模型的形成需要遵從兩點要求:熵最大和滿足所有已知條件。由此可以得到
最大熵模型是基於條件概率的。概率分布的目標函式是最大化條件熵:
最大熵模型需要滿足兩個條件的約束:
1. 與訓練語料保持一致性的含義:特徵fi在先驗分布和在模型分布上面的期望值是相等的。
2. 概率約束條件
最大熵模型的學習可以轉化為約束最優化問題,構造拉格朗日方程:
對p(y|x)求偏導等於0就可以獲得最優解,即最大熵模型的公式p(y|x)
主要是學習特徵f的權重λ。
目標函式是最大熵模型的似然函式,通過最大似然估計引數。
最優化的方法有兩種:
1. iis(改進的迭代尺度法)
基本思想是迭代模型引數λ,使得每次迭代的似然函式值增大,具體做法是提高對數似然函式改變量的下界。
2. 擬牛頓法
bfgs
統計學習方法李航
統計自然語言處理宗成慶
classical probabilistic models andconditionalrandom fields
熵(entropy)的理解與最大熵模型
熵的公式 h x i 1n p xi log p xi h x sum p left x right log p left x right h x i 1 n p xi logp x i log的原因是,一條資訊的可能性數量隨著位數的增加是指數的。用二進位制bit表示,1bit有2個狀態,2bit有...
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...