《深度學習》p47自資訊:描述乙個所含有的資訊量,
概率越小的事件所有包含的資訊量(也叫自資訊)越大,概率越大的事件發生了所包含的自資訊越小。自資訊的數學定義:
i (x
)=−l
ogp(
x)
\huge i(x) = -logp(x)
i(x)=−
logp
(x)
機器學習中log的底一般為為自然對數e
ee自資訊只是處理單個的輸出,使用夏農熵來表示對整個概率分布中的不確定性的總量的量化
h (x
)=ex
∼p=−
ex∼p
[log
p(x)
]\huge h(x)=\mathbb_=-\mathbb_[logp(x)]
h(x)=e
x∼p
=−ex
∼p[
logp
(x)]
乙個分布的夏農熵是指遵循這個分布的事件所產生的期望資訊總量.
維基百科:計算使q(x)分布變成p(x)分布,所需要的額外的p(x)資訊, 可以使用kl散度量衡量p(x)和q(x)分布的差異性q:
d kl
(p∣∣
q)=e
x∼p[
logp
(x)q
(x)]
=ex∼
p[lo
gp(x
)−lo
gq(x
)\huge d_(p||q)=\mathbb_[log\frac]=\mathbb_[logp(x)-logq(x)
dkl(p
∣∣q)
=ex∼
p[l
ogq(
x)p(
x)]
=ex∼
p[l
ogp(
x)−l
ogq(
x)
維基百科:使用q(x)變成p(x)所以需要的額外的p(x)資訊 加上 p(x)本身所具有的夏農熵, 等於把q(x)變成p(x)所需要的總的資訊量.
h (p
,q)=
h(p)
−dkl
(p∣∣
q)
\huge h(p,q)=h(p) - d_(p||q)
h(p,q)
=h(p
)−dk
l(p
∣∣q)
進過變化得到
h (p
,q)=
−ex∼
plog
q(x)
\huge h(p,q)=-\mathbb_logq(x)
h(p,q)
=−ex
∼pl
ogq(
x)當針對q最小化交叉熵的時候,交叉熵等價於kl散度, 因為h§並沒有q項.
熵,交叉熵,相對熵(KL散度)
先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...
熵,交叉熵,相對熵(KL散度)
參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...
1 資訊熵 交叉熵 KL散度
資訊量介紹 當我們考慮乙個離散的隨機變數x的時候,當我們觀察到的這個變數的乙個具體值的時候,我們接收到了多少資訊呢?多少資訊用資訊量來衡量,我們接受到的資訊量跟具體發生的事件有關。資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大,如湖南產生的 了 越大概率的事情發生了產生的資訊量...