首先給出夏農資訊量的概念:
事件出現的概率越大,所包含的資訊量越小
可加性不能為負
h (x
)=−l
og2p
xh(x)=-log_2p_x
h(x)=−
log2
px
p
xp_x
px是事件x
xx發生的概率
熵是所有事件發生的資訊量的期望
h (p
)=−∑
ipi∗
log2
pi
h(p)=-\sum_ip_i*log_2p_i
h(p)=−
i∑p
i∗l
og2
pi熵也可以看作是最小平均編碼長度。參考熵和編碼長度
按照非真實的分布q
qq來計算事件的資訊量,或者說給資訊編碼。
則h (x
)=−l
og2q
xh(x)=-log_2q_x
h(x)=−
log2
qx
那麼計算出來的熵就是
h (p
,q)=
−∑ip
i∗lo
g2qi
h(p,q)=-\sum_ip_i*log_2q_i
h(p,q)
=−i∑
pi
∗log
2qi
注意要用真實的分布來計算期望,這代表我們用q
qq分布來編碼能得到的真實的最小平均編碼長度。
又稱為kl散度
用交叉熵減去真實的熵,得到相對熵。表示用非真實的分布q
qq給資訊編碼會比用真實的分布p
pp編碼多的編碼長度。
d (p
∣∣q)
=h(p
,q)−
h(p)
=∑ip
i∗lo
g2pi
qi
d(p||q) = h(p,q) - h(p)=\sum_i*log_2\frac
d(p∣∣q
)=h(
p,q)
−h(p
)=i∑
pi
∗log
2qi
pi
根據吉布斯不等式可知h(p
,q)≥
h(p)
h(p,q)\ge h(p)
h(p,q)
≥h(p
),當q
qq和p
pp相等時取等號。
相對熵衡量了q
qq和p
pp兩個概率分布的差異性。
##參考
資訊熵是什麼? - 憶臻的回答 - 知乎
如何通俗的解釋交叉熵與相對熵? - noriko oshima的回答 - 知乎
1 資訊熵 交叉熵 KL散度
資訊量介紹 當我們考慮乙個離散的隨機變數x的時候,當我們觀察到的這個變數的乙個具體值的時候,我們接收到了多少資訊呢?多少資訊用資訊量來衡量,我們接受到的資訊量跟具體發生的事件有關。資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大,如湖南產生的 了 越大概率的事情發生了產生的資訊量...
資訊熵,交叉熵,KL散度,JS散度之間的關係
1 資訊熵介紹 對於連續型隨機變數,假設p為隨機變數x的概率分布,則p x 為隨機變數x在x x處的概率,隨機變數x在x處的夏農資訊量為 夏農資訊量用於刻畫消除隨機變數x在x處的不確定性所需的資訊量的大小。很容易看到 當 x x 的概率 p x 比較大時,就代表此事發生的概率比較大,不確定性因素小,...
自資訊,KL散度 相對熵 ,交叉熵
深度學習 p47 自資訊 描述乙個所含有的資訊量,概率越小的事件所有包含的資訊量 也叫自資訊 越大,概率越大的事件發生了所包含的自資訊越小。自資訊的數學定義 i x l ogp x huge i x logp x i x logp x 機器學習中log的底一般為為自然對數e ee自資訊只是處理單個的...