自資訊,KL散度 相對熵 ,交叉熵

2021-08-28 13:43:19 字數 1573 閱讀 3077

《深度學習》p47

自資訊:描述乙個所含有的資訊量,

概率越小的事件所有包含的資訊量(也叫自資訊)越大,概率越大的事件發生了所包含的自資訊越小。自資訊的數學定義:

i (x

)=−l

ogp(

x)

\huge i(x) = -logp(x)

i(x)=−

logp

(x)

機器學習中log的底一般為為自然對數e

ee自資訊只是處理單個的輸出,使用夏農熵來表示對整個概率分布中的不確定性的總量的量化

h (x

)=ex

∼p=−

ex∼p

[log

p(x)

]\huge h(x)=\mathbb_=-\mathbb_[logp(x)]

h(x)=e

x∼p​

=−ex

∼p​[

logp

(x)]

乙個分布的夏農熵是指遵循這個分布的事件所產生的期望資訊總量.

維基百科:

計算使q(x)分布變成p(x)分布,所需要的額外的p(x)資訊, 可以使用kl散度量衡量p(x)和q(x)分布的差異性q:

d kl

(p∣∣

q)=e

x∼p[

logp

(x)q

(x)]

=ex∼

p[lo

gp(x

)−lo

gq(x

)\huge d_(p||q)=\mathbb_[log\frac]=\mathbb_[logp(x)-logq(x)

dkl​(p

∣∣q)

=ex∼

p​[l

ogq(

x)p(

x)​]

=ex∼

p​[l

ogp(

x)−l

ogq(

x)

維基百科:

使用q(x)變成p(x)所以需要的額外的p(x)資訊 加上 p(x)本身所具有的夏農熵, 等於把q(x)變成p(x)所需要的總的資訊量.

h (p

,q)=

h(p)

−dkl

(p∣∣

q)

\huge h(p,q)=h(p) - d_(p||q)

h(p,q)

=h(p

)−dk

l​(p

∣∣q)

進過變化得到

h (p

,q)=

−ex∼

plog

q(x)

\huge h(p,q)=-\mathbb_logq(x)

h(p,q)

=−ex

∼p​l

ogq(

x)當針對q最小化交叉熵的時候,交叉熵等價於kl散度, 因為h§並沒有q項.

熵,交叉熵,相對熵(KL散度)

先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...

熵,交叉熵,相對熵(KL散度)

參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...

1 資訊熵 交叉熵 KL散度

資訊量介紹 當我們考慮乙個離散的隨機變數x的時候,當我們觀察到的這個變數的乙個具體值的時候,我們接收到了多少資訊呢?多少資訊用資訊量來衡量,我們接受到的資訊量跟具體發生的事件有關。資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大,如湖南產生的 了 越大概率的事情發生了產生的資訊量...