最大熵模型(一)

2022-08-20 03:15:12 字數 2098 閱讀 7264

物理學的熵

描述事物無序性的引數,熵越大則無序性越強。

從巨集觀方面講(根據熱力學定律),乙個體系的熵等於其可逆過程吸收或耗散的熱量除以它的絕對溫度

從微觀講,熵是大量微觀粒子的位置和速度的分布概率的函式。

自然界的乙個基本規律就是熵遞增原理,即,乙個孤立系統的熵,自發性地趨於極大,隨著熵的增加,有序狀態逐步變為混沌狀態,不可能自發地產生新的有序結構,這意味著自然界越變越無序。

資訊理論的熵

先認識一下資訊理論的鼻祖,夏農。

資訊理論的開創者夏農認為,資訊(知識)是人們對事物了解的不確定性的消除或減少。他把不確定的程度稱為資訊熵。表示為:

matlab demo:

p=[0:0.01:1];

h=-1*(p.*log2(p)+(1-p).*log2(1-p));

plot(p,h); grid on;

熵的性質

假設可能狀態的數量有限,當所有概率相等時,熵取得最大值。用拉格朗日法證明。

最大熵原理

最大熵原理是根據樣本資訊對某個未知分布做出推斷的一種方法。

吳軍(2006)舉了乙個例子。對乙個均勻的骰子,問它每個面朝上的概率分別是多少。所有人都會說是1/6。這種「猜測」當然是對的,因為對這個「一無所知」的色子,假定它每乙個朝上概率均等是最安全的做法,你不應該假設它被做了手腳。從資訊理論的角度講,就是保留了最大的不確定性,讓熵達到最大(從投資的角度來看,這就是風險最小的做法)。但是,如果這個骰子被灌過鉛,已知四點朝上的概率是1/3,在這種情況下,每個面朝上的概率是多少?當然,根據簡單的條件概率計算,除去四點的概率是 1/3外,其餘的概率都是 2/15。也就是說,除已知的條件(四點概率為 1/3)必須滿足外,對其它各點的概率,我們仍然無從知道,也只好認為它們相等。這種基於直覺的猜測之所以準確,是因為它恰好符合了最大熵原理。

回到物理學例子中。在涉及物理系統的情形中,一般要確定該系統可以存在的多種狀態,需要了解約束下的所有引數。比如能量、電荷和其他與每個狀態相關的物理量都假設為已知。為了完成這個任務常常需要量子力學。我們不假設在這個步驟系統處於特定狀態;事實上我們假定我們不知道也不可能知道這一點,所以我們反而可以處理被佔據的每個狀態的概率。這樣把概率當作應對知識缺乏的一種方法。我們很自然地想避免假定了比我們實際有的更多的知識,最大熵原理就是完成這個的方法。

這裡可以總結出最大熵對待已知事物和未知事物的原則:承認已知事物(知識);對未知事物不做任何假設,沒有任何偏見。最大熵原理指出,當我們需要對乙個隨機事件的概率分布進行**時,我們的**應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設(不做主觀假設,這點很重要。)在這種情況下,概率分布最均勻,**的風險最小。因為這時概率分布的資訊熵最大,所以人們稱這種模型叫「最大熵模型」。我們常說,不要把所有的雞蛋放在乙個籃子裡,其實就是最大熵原理的乙個樸素的說法,因為當我們遇到不確定性時,就要保留各種可能性。

乙個快餐店提供3種食品:漢堡(b)、雞肉(c)、魚(f)。**分別是1元、2元、3元。已知人們在這家店的平均消費是1.75元,求顧客購買這3種食品的概率。如果你假設一半人買魚另一半人買雞肉,那麼根據熵公式,這不確定性就是1位(熵等於1)。但是這個假設很不合適,因為它超過了你所知道的事情。我們已知的資訊是:

latex equation:

\begin 

p(b)+p(c)+p(f)=1\\ 

1*p(b)+2*p(c)+3*p(f)=1.75

\end

對前兩個約束,兩個未知概率可以由第三個量來表示,可以得到:

latex equation: 

\begin 

p(c)=0.75-2*p(f)\\ 

p(b)=0.25+p(f)

\end

把上式代入熵的表示式中,熵就可以用單個概率 p(f) 來表示。

對這個單變數優化問題,很容易求出 p(f)=0.216 時熵最大,有 p(b)=0.466, p(c)=0.318 和 s=1.517。

以上,我們根據未知的概率分布表示了約束條件,又用這些約束條件消去了兩個變數,用剩下的變數表示熵,最後求出了熵最大時剩餘變數的值,結果就求出了乙個符合約束條件的概率分布,它有最大不確定性,我們在概率估計中沒有引入任何偏差。

參考

最大熵模型

最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...

最大熵模型

pw y x 1z w x exp i 1nw ifi x,y 其中,zw x yexp i 1n wifi x,y 最大熵模型的學習等價於約束最優化問題 minp c h p x yp x p y x logp y x s.t.ep fi ep fi 0,i 1,2 n yp y x 1 約束最優...

最大熵模型

學習概率模型時,在所有的可能概率模型 分布 中,熵最大的模型是最好的模型。通常根據約束條件來確定概率模型的集合,所以也可理解為 在滿足約束條件的模型集合中選取熵最大的模型。假設離散隨機變數 x 的概率分布是p x 則其熵是 h p xp x lo gp x 熵滿足不等式 0 h p lo g x 其...