資訊與最大熵模型

2022-05-12 22:25:16 字數 2044 閱讀 4628

一條資訊的資訊量與其不確定性有直接關係。當我們需要搞清一件非常不確定性的事,就需要了解大量的資訊;相反,當我們對某一件事了解較多時,不需要太多的資訊就可以把它搞清楚。從這個角度來看,資訊量就是等於不確定性的多少。

當讓我們猜測世界盃決賽中1-32號球隊誰是冠軍時,假設我們每猜測一次,對方告訴我們對或者不對,這樣我們根據二分方法,一共需要猜測5次。那麼實際中,可能並不需要猜測5次,應為像德國這樣的球隊得到冠軍的可能性比日本這樣的隊高得多,這道這些資訊後,我們可能只需要猜測3、4次就可以猜中。

夏農指出,對任意乙個隨機變數\(x\),它的熵(entropy)定義為

\[h(x)=-\sum _p(x)logp(x)

\]熵滿足不等式

\[0 \leq h(x) \leq log|x|

\]其中\(|x|\)是\(x\)取值的個數,當且僅當\(x\)服從均勻分布時等號成立,也就是說,\(x\)服從均勻分布時,熵最大。

資訊是消除不確定性的唯一方法。當我們知道事件資訊更多,我們對事件了解程度越高。假定乙個事件的不確定性為\(u\),從外部消除這個不確定性的方法是引入資訊\(i\),而需要引入的資訊量取決於這個不確定性的大小,當\(i時,可以消除一部分不確定性,也就是新的不確定性為

\[u'=u-i

\]當\(i \geq u\) 時,不確定性才能完全消除。需要注意的是,只有引入和當前研究問題相關的資訊才可以消除不確定性。下面引入條件熵的概念。

假定\(x,y\)是兩個隨機變數,\(x\)是我們需要了解的,現在知道\(x\)的概率分布\(p(x)\),以及\(x,y\)的聯合概率分布\(p(x,y)\)和\(x\)在\(y\)下的條件概率分布\(p(x|y)\),定義在\(y\)下的條件熵為

\[h(x|y)=-\sum_p(x,y)logp(x|y)

\]滿足\(h(x) \geq h(x|y)\),也就是多了\(y\)的資訊後,\(x\)的不確定性下降了。

當獲取的資訊要和研究的事物"有關係"時,這些資訊才能幫助我們消除不確定性。在這裡將會給出有關係的精確定義,夏農在資訊理論中提出了「互資訊」的概念作為兩個隨機時間的「相關性「的量化度量。假定有兩個隨機時間\(x\)和\(y\),他們的互資訊定義為

\[i(x;y)=\sum_p(x,y)\;log\frac

\]其實這個互資訊就是隨機變數\(x\)的不確定性或者說熵\(h(x)\),以及在知道隨機事件\(y\)條件下的不確定性,或者說條件熵\(h(x|y)\)之間的差異

\[i(x;y)=h(x)-h(x|y)

\]相對熵也是資訊理論中的重要概念。相對熵也被稱作交叉熵(relative entropy 或者 kullback-leibler dibergence)。相對熵也是來衡量相關性,但是和互資訊不同的是,它是用來衡量兩個取值為正數的函式的相似性,定義為

\[kl(f(x)||g(x))=\sum_f(x)\; log\frac)

\]需要注意的是

\[kl(f(x)||g(x)) \not = kl(g(x)||f(x))

\]有時候為了方便,將上面兩個式子取平均

\[js(f(x)||g(x))=\frac[kl(f(x)||g(x)) +kl(g(x)||f(x))]

\]對於相對熵,只需要記住以下三條:

論投資,人們常說不要把所有的雞蛋放在乙個籃子裡,這樣可以降低風險,這個原理在數學上被稱作最大熵模型。說白了就是要保留不確定性,讓風險降到最小。

對於乙個6個面的篩子,當我們不知道更多資訊時,我們認為在一次投擲中每個面朝上的概率是\(\frac\)。為什麼這樣認為呢?因為對於這個一無所知的篩子,假定它每乙個面朝上概率均等是最安全的做法。從投資的角度來看,這就是風險最小的做法。從資訊理論角度來看,就是保留了最大的不確定性,也就是熵最大。進一步的,我們知道這顆篩子很特殊,已知四點朝上的概率是\(\frac\),這種情況下,每個點朝上的概率是多少呢?這時候認為除了已知的四點朝上的概率是\(\frac\)外,其餘點概率是\(\frac\),這就是說對對已知條件(四點朝上概率為\(\frac\))必須滿足,而對其餘點一無所知,因而保險的做法是認為他們均等。

最大熵原理指出,對乙個隨機事件概率分布進行**時,我們的**應當滿足全部的已知條件,而對未知情況不做任何主觀假設。

最大資訊熵增益 資訊熵與資訊增益

1.資訊熵 資訊熵就是指不確定性,熵越大,不確定性越大 2.關於資訊增益 資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊...

最大資訊熵增益 資訊熵與資訊增益

前言 熵在機器學習中用的非常普遍,但這個又難以理解,經常忘記,寫一篇部落格記錄一下,也方便其他人學習了解。什麼是熵 一開始接觸熵是大二的資訊理論,非常難的一門課,當時學的時候不知道這個東西有什麼用,完全就不太想學,因為不知道幹嘛,也不知道學了有什麼用,但是現在很後悔,定義 熵也叫資訊熵,可以表徵隨機...

最大熵模型

最大熵模型學習中的對偶函式極大化等價於最大熵模型的極大使然估計。這樣最大熵模型的學習問題就轉換為具體求解對數似然函式極大化或對偶函式極大化的問題。邏輯斯蒂回歸模型 最大熵模型學習歸結為以似然函式為目標函式的最優化問題。iis試圖一次只優化其中乙個變數theai,而固定其他變數。這裡b thea w ...