資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy,一般用h
hh表示。分布的熵的公式如下:
h =−
∑i=1
np(x
i)
⋅logp
(xi)
h=-\sum_^ p\left(x_\right) \cdot \log p\left(x_\right)
h=−i=1
∑np
(xi
)⋅logp(x
i)example:
support there are there categories, the correct answer for an example is (1, 0, 0);
?((1, 0, 0), (0.5, 0.2, 0.3)) = -log 0.5 ≈ 0.301
?((1, 0, 0), (0.7, 0.1, 0.2)) = -log 0.7 ≈ 0.155
?((1, 0, 0), (1.0, 0.0, 0.0)) = -log 1.0 ≈ 0.0
so define cross entropy loss function:
loss =−
∑i=1
ny
ilogy
i′
\begin &\text =-\sum_^ y_ \log y_^\\ \end
loss =−
i=1∑
nyi
logyi
′其中 :yi
: \quad y_
:yi
為標籤值, yi′
\quad y_^
yi′
為**值
the cross entropy represents uncertainty. =>熵可以表示資訊內部的混沌程度。
2023年,夏農引入資訊熵,將其定義為離散隨機事件的出現概率。乙個系統越是有序,資訊熵就越低;反之,乙個系統越是混亂,資訊熵就越高。所以說,資訊熵可以被認為是系統有序化程度的乙個度量。
只需要稍加修改熵h
hh的計算公式就能得到k-l散度的計算公式。設p
pp為觀察得到的概率分布,q
qq為另一分布來近似p
pp,則p
pp、q
qq的k-l散度為:
d kl
(p∥q
)=∑i
=1np
(xi)
⋅(
logp(
xi)−
logq(
xi))
d_(p \| q)=\sum_^ p\left(x_\right) \cdot\left(\log p\left(x_\right)-\log q\left(x_\right)\right)
dkl(p
∥q)=
i=1∑
np(
xi)
⋅(logp(x
i)−
logq(x
i))
根據上面的公式,k-l散度其實是資料的原始分布p
pp和近似分布q
qq之間的對數差值的期望。如果繼續用2為底的對數計算,則k-l散度值表示資訊損失的二進位制位數。下面公式以期望表達k-l散度:
d kl
(p∥q
)=e[
logp(
x)
−logq
(x)]
d_(p \| q)=e[\log p(x)-\log q(x)]
dkl(p
∥q)=
e[logp(x
)−logq(x
)]其中 eqe_
eq 表示從 q
qq 取樣,計算log q
−logp
q-\log p
q−logp
的期望 ( expectation ) e
ee。當變分分布 ( variational distribution ) q
qq 等於真實分布 p
pp 時,kl散度等於0。如果用引數 θ
\theta
θ 來表示 分布 qθq_
qθ -例如高斯分布 n(μ
,σ2)
n\left(\mu, \sigma^\right)
n(μ,σ2
) 用引數均值 μ
\muμ 和方差 σ
2\sigma^
σ2來表示一那麼變分推斷就是求引數 θ
\theta
θ 的值或範圍,使 qθq_
qθ 近似 p
pp。這也是變分推斷被「變分"推斷的原因。
一般,k-l散度以下面的書寫方式更常見:
d kl
(p∥q
)=∑i
=1np
(xi)
⋅logp
(xi)
q(xi
)d_(p \| q)=\sum_^ p\left(x_\right) \cdot \log \frac\right)}\right)}
dkl(p
∥q)=
i=1∑
np(
xi)
⋅logq(
xi)
p(xi
)k-l散度能幫助我們度量使用乙個分布來近似另乙個分布時所損失的資訊量。
熵,交叉熵,相對熵(KL散度)
先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...
熵,交叉熵,相對熵(KL散度)
參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...
交叉熵與KL散度
welcome to my blog 老遇到交叉熵作為損失函式的情況,於是總結一下 交叉熵從kl散度 相對熵 中引出,kl散度 kullback leibler divergence 公式為 kl散度是衡量兩個分布之間的差異大小的,kl散度大於等於0,並且越接近0說明p與q這兩個分布越像,當且僅當p...