1.自資訊
i = -log(p(x))
某件事發生的概率越大,富含資訊越少。例如明天太陽從東邊出來這句話的有用的資訊其實是很少的,但是明天要下雨這句話富含的資訊就比前一句話多了。p(下雨)2.熵
自資訊的期望
3.條件熵
其實還有互資訊,平均互資訊,交叉熵等等的概念,這裡就不介紹了,以後會專門寫一篇關於資訊熵的。
最大熵原理指出,當我們需要對乙個隨機事件的概率分布進行**時,我們的**應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設。在這種情況下,概率分布最均勻,**的風險最小。因為這時概率分布的資訊熵最大,所以人們稱這種模型叫「最大熵模型」。我們常說,不要把所有的雞蛋放在乙個籃子裡,其實就是最大熵原理的乙個樸素的說法,因為當我們遇到不確定性時,就要保留各種可能性。說白了,就是要保留全部的不確定性,將風險降到最小。最大熵顧名思義使得熵h(p)最大,這裡是條件熵。
為了求解方便將max h(p)變為 min -h(p)。
f為特徵函式,比如明天下雨同時打雷概率1/10,那麼f(下雨,打雷)=1,其他為0。
e是特徵函式的期望,注意 f 的形式,其實e就可以理解成是乙個乙個約束條件。
利用拉格朗日乘子,整個求解過程很精彩,我加了自己的一點解釋在公式旁邊。
要注意
其實可以利用極大似然估計求解這個步驟
最後將問題簡化成了 求上述方程的最大值時,所對應的引數。這個步驟可以利用梯度下降,或者牛頓法就行操作
最大熵值法在自然語言中有所應用,在自然語言應用這塊下次再寫
最大熵模型
最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...
最大熵模型
pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...
最大熵模型
學習概率模型時,在所有的可能概率模型 分布 中,熵最大的模型是最好的模型。通常根據約束條件來確定概率模型的集合,所以也可理解為 在滿足約束條件的模型集合中選取熵最大的模型。假設離散隨機變數 x 的概率分布是p x 則其熵是 h p xp x lo gp x 熵滿足不等式 0 h p lo g x 其...