資訊熵和散度

2021-08-10 16:42:50 字數 1458 閱讀 7201

首先給出夏農資訊量的概念:

事件出現的概率越大,所包含的資訊量越小

可加性不能為負

h (x

)=−l

og2p

xh(x)=-log_2p_x

h(x)=−

log2

​px​

p

xp_x

px​是事件x

xx發生的概率

熵是所有事件發生的資訊量的期望

h (p

)=−∑

ipi∗

log2

pi

h(p)=-\sum_ip_i*log_2p_i

h(p)=−

i∑​p

i​∗l

og2​

pi​熵也可以看作是最小平均編碼長度。參考熵和編碼長度

按照非真實的分布q

qq來計算事件的資訊量,或者說給資訊編碼。

則h (x

)=−l

og2q

xh(x)=-log_2q_x

h(x)=−

log2

​qx​

那麼計算出來的熵就是

h (p

,q)=

−∑ip

i∗lo

g2qi

h(p,q)=-\sum_ip_i*log_2q_i

h(p,q)

=−i∑

​pi​

∗log

2​qi

​注意要用真實的分布來計算期望,這代表我們用q

qq分布來編碼能得到的真實的最小平均編碼長度。

又稱為kl散度

用交叉熵減去真實的熵,得到相對熵。表示用非真實的分布q

qq給資訊編碼會比用真實的分布p

pp編碼多的編碼長度。

d (p

∣∣q)

=h(p

,q)−

h(p)

=∑ip

i∗lo

g2pi

qi

d(p||q) = h(p,q) - h(p)=\sum_i*log_2\frac

d(p∣∣q

)=h(

p,q)

−h(p

)=i∑

​pi​

∗log

2​qi

​pi​

​根據吉布斯不等式可知h(p

,q)≥

h(p)

h(p,q)\ge h(p)

h(p,q)

≥h(p

),當q

qq和p

pp相等時取等號。

相對熵衡量了q

qq和p

pp兩個概率分布的差異性。

##參考

資訊熵是什麼? - 憶臻的回答 - 知乎

如何通俗的解釋交叉熵與相對熵? - noriko oshima的回答 - 知乎

1 資訊熵 交叉熵 KL散度

資訊量介紹 當我們考慮乙個離散的隨機變數x的時候,當我們觀察到的這個變數的乙個具體值的時候,我們接收到了多少資訊呢?多少資訊用資訊量來衡量,我們接受到的資訊量跟具體發生的事件有關。資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大,如湖南產生的 了 越大概率的事情發生了產生的資訊量...

資訊熵,交叉熵,KL散度,JS散度之間的關係

1 資訊熵介紹 對於連續型隨機變數,假設p為隨機變數x的概率分布,則p x 為隨機變數x在x x處的概率,隨機變數x在x處的夏農資訊量為 夏農資訊量用於刻畫消除隨機變數x在x處的不確定性所需的資訊量的大小。很容易看到 當 x x 的概率 p x 比較大時,就代表此事發生的概率比較大,不確定性因素小,...

自資訊,KL散度 相對熵 ,交叉熵

深度學習 p47 自資訊 描述乙個所含有的資訊量,概率越小的事件所有包含的資訊量 也叫自資訊 越大,概率越大的事件發生了所包含的自資訊越小。自資訊的數學定義 i x l ogp x huge i x logp x i x logp x 機器學習中log的底一般為為自然對數e ee自資訊只是處理單個的...