資訊熵是人們對客觀事件的不確定性的度量。正如序中所言,對於乙個事物,我們知道的越有可能發生,那麼我們用來找出確定的情況所需要得到資訊就越少,反之亦然。
此外,資訊熵還具有可加的性質。兩個事物如果是不相關的,如果我們同時得到的兩個事物,那麼我們所接收的資訊是可以疊加的。我們使用h(
x)表示事件發生概率為p(
x)的資訊熵,那麼剛才說的可加性可以表示為h(
x,y)
=h(x
)+h(
y)而對於概率來說p(
x,y)
=p(x
)p(y
) 。所以我們可以用下面的式子來表示乙個集合的資訊熵:h(
x)=−
log2p(
x)這裡,負號使得資訊熵的值大於等於零,此外底數為2表示h(
x)的單位為位元(bit),當然這裡也可以是另外的底數。
對於乙個事件的集合,每個事件對應的概率為p(
x),那麼這個事件集合的資訊熵的期望為h[
x]=−
∑xp(
x)log2p(
x)換言之,對於乙個離散的隨機變數x,有m種實現,對應每一種實現xi
,它所對應的概率為p(
x=xi
)=pi
,那麼隨機變數x的資訊熵為:h[
p]=−
∑ip(
xi)log2p
(xi)
對於連續的隨機變數,從離散的情況進行推導,得到:h[
x]=−
∫p(x
)lnp(
x)dx
對於多個連續隨機變數的情況,變數可以表示為乙個向量x,它的資訊熵為:h[
x]=−
∫p(x
)lnp(
x)dx
最大熵原理是一種選擇隨機變數統計特性最符合客觀情況的準則,也稱為最大資訊原理。隨機量的概率分布是很難測定的,一般只能測得其各種均值(如數學期望、方差等)或已知某些限定條件下的值(如峰值、取值個數等),符合測得這些值的分布可有多種、以至無窮多種,通常,其中有一種分布的熵最大。選用這種具有最大熵的分布作為該隨機變數的分布,是一種有效的處理方法和準則。這種方法雖有一定的主觀性,但可以認為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在乙個籃子裡,這樣可以降低風險。在資訊處理中,這個原理同樣適用。
這裡我們來計算幾個簡單的最大熵分布。對於離散的隨機變數來說,因為0≤
pi≤1
,隨機變數的資訊熵最小值為0,當pi
=1和其他所有 pj
≠i=0
。而資訊熵在標準化的限制情況下(概率之和為1),引入拉格朗日運算元,最大值為:h∼
=−∑i
p(xi
)log2p
(xi)
+λ(∑
ip(x
i)−1
) 解得當所有pi
相等時,資訊熵最大,最大值為當pi
=1/m
,hma
x=lnm
如果是連續的隨機變數,如果限定x的取值範圍為[a,b],在標準化的限制條件,那麼資訊熵的最大值同上式模擬得到:h∼
=−∫p
(x)ln
p(x)
dx+λ
(∫p(
x)dx
−1)a
≤x≤b
對p(x)
進行求導取值為0,得到當p(
x)=1
b−a(
a≤x≤
b)時,即x為在[a,b]區間上為均勻分布時,熵最大,最大值為hm
ax=ln
(b−a
) 其次,當限制條件為:1、標準化狀態(概率之和為1)2.一階統計矩即平均數
μ 3.二階中心矩即方差σ2
。用數學語言來表述為∫p
(x)d
x=1(
1) ∫
xp(x
)dx=
μ(2)
∫x2p(x)
dx=σ
2(3)
在此限制條件下,求h[
x]=−
∫p(x
)lnp(
x)dx
的最大值。
參照上面的方法,引入拉格朗日運算元得到:h=
−∫p(
x)lnp
(x)d
x+λ0
(∫p(
x)dx
−1)+
λ1(∫
xp(x
)dx−
μ)+λ
2(∫x
2p(x
)dx−
σ2)
對p(x
) 進行求導取值為0,得到−ln
p(x)
−1+λ
0+λ1
x+λ2
(x−μ
)2=0
即:p(
x)=z
−1exp(λ1
x+λ2
(x−μ
)2)(
4)這裡,lnz
=−λ0
+1為配分方程。書中是直接參考標準正態分佈得到各係數,現在我們使用一般的推導:將(4)式做乙個小變換得到:p(
x)=z
−1exp 用y
=x−(
μ−λ1
2λ2)
替換x得到:p(
y+(μ
−λ12
λ2))
=z−1
exp(5)
把(5)帶入(1)得到z−
1=−λ
2π−−
−√把(5)帶入(2)得到∫y
p(y)
dy=λ
12λ2
=0(由於是奇函式)得λ1
=0把(5)帶入(3)得到−λ
2π−−
−√π√
2(−λ
2)3/
2=σ2
解得:λ2
=−12
σ2所以在上述約束條件下,最大熵對應連續隨機變數的概率密度函式為:12
π−−√
σexp(−
(x−μ
)22σ
2)該密度函式就是正態分佈,同時推導的方法也是正態分佈推導的方法之一。
熵與資訊理論
假設任何檔案都可以被壓縮到 n 個二進位制位 bit 那麼其最多可以表示 2n 個不同的壓縮結果。也即,如果存在 2n 1個檔案,根據鴿籠原理,必然至少有兩個檔案得到同一壓縮效果。這就意味著,這兩個檔案不可能都無損地還原。因此,可以得出乙個相對抽象的結論,並非所有檔案都可以被壓縮到 n 個bit 位...
PRML 1 5 資訊理論
對於資訊內容的度量依賴於概率分布p x 我們想要找到這麼乙個函式h x 要滿足 1.它是概率p x 的單調遞增函式 2.如果我們有兩個不相關的事件x和y,我們觀察到兩個事件同時發 時獲得的資訊應該等於觀察到事件各 發 時獲得的資訊之和,即h x,y h x h y 兩個不相關事件是統計獨 的,因此p...
TensorFlow 資訊理論 資訊熵2
tensorflow 資訊理論 資訊熵2 flyfish tensorflow 資訊理論 資訊熵1 熵是接收的每條訊息中包含的資訊的平均量,又被稱為資訊熵 信源熵 平均自資訊量 自資訊量已經知道它的意思,平均自資訊量就是加權平均 在資訊理論裡 熵,資訊熵 信源熵 平均自資訊量都是乙個意思 乙個系統的...