PRML學習筆記 資訊理論與最大熵

2021-08-09 03:38:59 字數 3125 閱讀 4220

資訊熵是人們對客觀事件的不確定性的度量。正如序中所言,對於乙個事物,我們知道的越有可能發生,那麼我們用來找出確定的情況所需要得到資訊就越少,反之亦然。

此外,資訊熵還具有可加的性質。兩個事物如果是不相關的,如果我們同時得到的兩個事物,那麼我們所接收的資訊是可以疊加的。我們使用h(

x)表示事件發生概率為p(

x)的資訊熵,那麼剛才說的可加性可以表示為h(

x,y)

=h(x

)+h(

y)而對於概率來說p(

x,y)

=p(x

)p(y

) 。所以我們可以用下面的式子來表示乙個集合的資訊熵:h(

x)=−

log2p(

x)這裡,負號使得資訊熵的值大於等於零,此外底數為2表示h(

x)的單位為位元(bit),當然這裡也可以是另外的底數。

對於乙個事件的集合,每個事件對應的概率為p(

x),那麼這個事件集合的資訊熵的期望為h[

x]=−

∑xp(

x)log2p(

x)換言之,對於乙個離散的隨機變數x,有m種實現,對應每一種實現xi

,它所對應的概率為p(

x=xi

)=pi

,那麼隨機變數x的資訊熵為:h[

p]=−

∑ip(

xi)log2p

(xi)

對於連續的隨機變數,從離散的情況進行推導,得到:h[

x]=−

∫p(x

)lnp(

x)dx

對於多個連續隨機變數的情況,變數可以表示為乙個向量x,它的資訊熵為:h[

x]=−

∫p(x

)lnp(

x)dx

最大熵原理是一種選擇隨機變數統計特性最符合客觀情況的準則,也稱為最大資訊原理。隨機量的概率分布是很難測定的,一般只能測得其各種均值(如數學期望、方差等)或已知某些限定條件下的值(如峰值、取值個數等),符合測得這些值的分布可有多種、以至無窮多種,通常,其中有一種分布的熵最大。選用這種具有最大熵的分布作為該隨機變數的分布,是一種有效的處理方法和準則。這種方法雖有一定的主觀性,但可以認為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在乙個籃子裡,這樣可以降低風險。在資訊處理中,這個原理同樣適用。

這裡我們來計算幾個簡單的最大熵分布。對於離散的隨機變數來說,因為0≤

pi≤1

,隨機變數的資訊熵最小值為0,當pi

=1和其他所有 pj

≠i=0

。而資訊熵在標準化的限制情況下(概率之和為1),引入拉格朗日運算元,最大值為:h∼

=−∑i

p(xi

)log2p

(xi)

+λ(∑

ip(x

i)−1

) 解得當所有pi

相等時,資訊熵最大,最大值為當pi

=1/m

,hma

x=lnm

如果是連續的隨機變數,如果限定x的取值範圍為[a,b],在標準化的限制條件,那麼資訊熵的最大值同上式模擬得到:h∼

=−∫p

(x)ln

p(x)

dx+λ

(∫p(

x)dx

−1)a

≤x≤b

對p(x)

進行求導取值為0,得到當p(

x)=1

b−a(

a≤x≤

b)時,即x為在[a,b]區間上為均勻分布時,熵最大,最大值為hm

ax=ln

(b−a

) 其次,當限制條件為:1、標準化狀態(概率之和為1)2.一階統計矩即平均數

μ 3.二階中心矩即方差σ2

。用數學語言來表述為∫p

(x)d

x=1(

1) ∫

xp(x

)dx=

μ(2)

∫x2p(x)

dx=σ

2(3)

在此限制條件下,求h[

x]=−

∫p(x

)lnp(

x)dx

的最大值。

參照上面的方法,引入拉格朗日運算元得到:h=

−∫p(

x)lnp

(x)d

x+λ0

(∫p(

x)dx

−1)+

λ1(∫

xp(x

)dx−

μ)+λ

2(∫x

2p(x

)dx−

σ2)

對p(x

) 進行求導取值為0,得到−ln

p(x)

−1+λ

0+λ1

x+λ2

(x−μ

)2=0

即:p(

x)=z

−1exp(λ1

x+λ2

(x−μ

)2)(

4)這裡,lnz

=−λ0

+1為配分方程。書中是直接參考標準正態分佈得到各係數,現在我們使用一般的推導:將(4)式做乙個小變換得到:p(

x)=z

−1exp 用y

=x−(

μ−λ1

2λ2)

替換x得到:p(

y+(μ

−λ12

λ2))

=z−1

exp(5)

把(5)帶入(1)得到z−

1=−λ

2π−−

−√把(5)帶入(2)得到∫y

p(y)

dy=λ

12λ2

=0(由於是奇函式)得λ1

=0把(5)帶入(3)得到−λ

2π−−

−√π√

2(−λ

2)3/

2=σ2

解得:λ2

=−12

σ2所以在上述約束條件下,最大熵對應連續隨機變數的概率密度函式為:12

π−−√

σexp(−

(x−μ

)22σ

2)該密度函式就是正態分佈,同時推導的方法也是正態分佈推導的方法之一。

熵與資訊理論

假設任何檔案都可以被壓縮到 n 個二進位制位 bit 那麼其最多可以表示 2n 個不同的壓縮結果。也即,如果存在 2n 1個檔案,根據鴿籠原理,必然至少有兩個檔案得到同一壓縮效果。這就意味著,這兩個檔案不可能都無損地還原。因此,可以得出乙個相對抽象的結論,並非所有檔案都可以被壓縮到 n 個bit 位...

PRML 1 5 資訊理論

對於資訊內容的度量依賴於概率分布p x 我們想要找到這麼乙個函式h x 要滿足 1.它是概率p x 的單調遞增函式 2.如果我們有兩個不相關的事件x和y,我們觀察到兩個事件同時發 時獲得的資訊應該等於觀察到事件各 發 時獲得的資訊之和,即h x,y h x h y 兩個不相關事件是統計獨 的,因此p...

TensorFlow 資訊理論 資訊熵2

tensorflow 資訊理論 資訊熵2 flyfish tensorflow 資訊理論 資訊熵1 熵是接收的每條訊息中包含的資訊的平均量,又被稱為資訊熵 信源熵 平均自資訊量 自資訊量已經知道它的意思,平均自資訊量就是加權平均 在資訊理論裡 熵,資訊熵 信源熵 平均自資訊量都是乙個意思 乙個系統的...