先說一下最大熵原理:保留各種可能性,不加入人為的猜想假設,也就是說當我們遇到不確定的事情,保留各種可能性,在這種情況下,**的風險是最小的,概率分布最均勻(這個均勻是怎麼回事一會說),資訊熵是最大的
最大熵認為,熵最大的模型(概率分布最均勻的)模型是最好的。
比如說,明天的天氣可能是,晴,雨,雪這三種,我們**的概率都是1/3.
這是因為我們沒加入主觀的判斷,就像現在是夏天應該不會下雪的這樣的猜想。
把它們都認為是1/3這樣的話,猜錯的風險是最小的,資訊熵最大的,概率是均勻的。
我們也可以通過公式算出,當概率均勻的時候(當不確定的部分 概率是相等的時候)熵最大。即
h(x)=−∑p(xi)log(p(xi))(i=1,2,…,n)
,式中對數一般取2為底
繼續回來剛才的列子,
顯然p(雪)+p(雨)+p(晴)的概率=1 這就是個約束條件,在這個顯然的約束條件下,每個概率(p(雪),p(雨),p(晴))都是難以準確預知的,它們三個可以有很多取值,但要滿足約束條件,我們也說有不同的模型。
最大熵就是在滿足一定約束模型的條件下,從這些模型中選擇熵最大的。
接下來再舉個列子,
再給定 些輸入的訓練資料比如
如果**在經濟類上出現的次數多,在文化上出現的次數少,我們認為每乙個成對資料的前者為輸入x,後者為輸出y
那麼p(y=經濟|x=**)>p(y=文化|x=** )
那麼下次出現**的時候就給他分到經濟類。
因此,我們需要求每乙個分類的合理條件概率,這樣就可以盡量正確的分類
如何求這樣合理的條件概率呢,我們就需要最大熵模型了
由於最大熵,可以得知風險最小的概率。也就是說是最準確的,出錯率小。
最大熵模型就是通過約束條件和條件熵來求得的。
因此求解最大熵模型就轉化為在約束條件下最優化問題。
我們很自然的就可以想到利用拉格朗日中值定理來求解概率。
最大熵模型為:
就是條件熵h(y|x)=σp(x)p(y|x)log1/p(y|x) 自己推到下 沒有幾步
約束條件:
在這裡的約束條件就是給出的訓練資料中(周杰倫,經濟類)是否符合事實f(x,y)=1符合事實,反之為0
我們稱f(x,y)為特徵函式
我們求得每個「對」出現的p(x,y)*f(x,y)的期望也即p(y|x)*p(x)*f(x,y)的期望和理論的期望相等
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...
最大熵模型
學習概率模型時,在所有的可能概率模型 分布 中,熵最大的模型是最好的模型。通常根據約束條件來確定概率模型的集合,所以也可理解為 在滿足約束條件的模型集合中選取熵最大的模型。假設離散隨機變數 x 的概率分布是p x 則其熵是 h p xp x lo gp x 熵滿足不等式 0 h p lo g x 其...