首先,我們知道, 熵 是用來量化資料中含有的資訊量的,其計算公式為:
h =−
∑i=1
np(x
i)
⋅logp
(xi)
h=-\sum_^p(x_)\cdot \log p(x_)
h=−i=1
∑np
(xi
)⋅logp(x
i)1)kl散度(kullback–leibler divergence)
又稱kl距離,相對熵,用來比較兩個概率分布的接近程度。
假設 p(x
)p(x)
p(x)
為資料的真實概率分布,q(x
)q(x)
q(x)
為資料的理論概率分布,計算它們每個取值之間對應的差:
k l(
p∣∣q
)=∑i
=1np
(xi)
⋅(
logp(
xi)−
logq(
xi))
kl(p||q)=\sum_^p(x_)\cdot \left (\log p(x_)-\log q(x_) \right )
kl(p∣∣
q)=i
=1∑n
p(x
i)⋅
(logp(
xi)
−logq(
xi)
)可以簡寫成:
k l(
p∣∣q
)=∑i
=1np
(xi)
⋅logp
(xi)
q(xi
)kl(p||q)=\sum_^p(x_)\cdot \log \frac)})}
kl(p∣∣
q)=i
=1∑n
p(x
i)⋅
logq(x
i)p
(xi
)當 p (x
)p(x)
p(x)
和q (x
)q(x)
q(x)
的相似度越高,kl散度越小。因此使用kl散度進行優化的過程為:通過不斷改變預估分布的引數,我們可以得到不同的kl散度的值。 在某個變化範圍內,kl散度取到最小值的時候,對應的引數是我們想要的最優引數。
kl散度主要有兩個性質:
2)交叉熵(cross entropy)
h (p
,q)=
∑i=1
np(x
i)
⋅log1
q(xi
)h(p,q)=\sum_^p(x_)\cdot \log \frac)}
h(p,q)
=i=1
∑np
(xi
)⋅logq(x
i)1
交叉熵和相對熵的關係如下:
k l(
p∣∣q
)=h(
p,q)
−h(p
)kl(p||q)=h(p,q)-h(p)
kl(p∣∣
q)=h
(p,q
)−h(
p)因為訓練資料的分布是已知的,所以交叉熵與kl散度的意義類似。
3)js散度(jensen-shannon divergence)
j s(
p∣∣q
)=12
kl(p
∣∣p+
q2)+
12kl
(q∣∣
p+q2
)js(p||q)=\frackl(p||\frac)+\frackl(q||\frac)
js(p∣∣
q)=2
1kl
(p∣∣
2p+q
)+2
1kl
(q∣∣
2p+q
)js散度主要有兩個性質:
在gan中,它衡量的是隨機雜訊生成資料的概率分布擬合真實資料的概率分布的過程中產生的資訊損耗,損耗越少,擬合越好,生成的資料越真實。但是kl散度和js散度存在同乙個問題,如果p分布和q分布相距很遠完全沒有重疊,kl散度值是沒有意義的,且會導致梯度消失,故引出了wasserstein距離,明天學習這一部分。
交叉熵 K L散度
資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy,一般用h hh表示。分布的熵的公式如下 h i 1 np x i log p xi h sum p left x right cdot log p left x right h i 1 n p xi logp x i ex...
熵,交叉熵,相對熵(KL散度)
先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...
熵,交叉熵,相對熵(KL散度)
參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...