熵，交叉熵，相對熵（KL散度）

先插入乙個鏈結視覺化資訊理論，簡單明瞭很容易看懂

資訊熵是度量隨機變數不確定度的指標，資訊熵越大意味著隨機變數不確定度越高，意味著系統的有序程度越低。他的定義

如果隨機變數p=

,他的概率p,

i∈，則隨機變數p=

的熵定義為 h(

p)=−

∑i=1

np(x

i)lo

g2p(

xi)

交叉熵（cross entropy），主要用於度量兩個概率分布間的差異性資訊。對乙個離散隨機變數的兩個概率分布p和q來說，他們的交叉熵定義為： h(

p,q)

=−∑i

=1np

(xi)

log2

q(xi

) 特別的在機器學習中，p代表真實分布，q代表模型擬合分布，交叉熵衡量兩個分布之間的差異，交叉熵越小，q就與就接近真實分布p，這也是為什麼我們用最小化交叉熵損失來學習模型，最簡單的邏輯回歸的損失函式： l(

θ)=−

1m∑i

=1m∑

j=01

p(y(

i)=j

|xi)

log2

q(y^

=j|x

i,θ)

,(x(

i),y

(i))

，i∈

其中(x(

i),y

(i))

表示真實資料和標籤。y^

表示模型輸出標籤。q(

y^=0

|xi,

θ)=1

1+e−

θtxi

表示模型分布輸出y^

=0的概率，q(

y^=0

|xi,

θ)=1

−11+

e−θt

xi表示模型分布輸出y^

=1時概率。p(

y(i)

=j|x

i)=1

。把其中j取值到n就是softmax分類損失了。

對乙個離散隨機變數的兩個概率分布p和q來說，他們的kl散度定義為： h(

p||q

)=∑i

=1np

(xi)

log2

p(xi

)q(x

i)相對熵（relative entropy）又稱為kl散度（kullback–leibler divergence，簡稱kld），資訊散度（information divergence），資訊增益（information gain），是描述兩個概率分布p和q差異的一種方法。它是非對稱的，這意味著d(p||q) ≠ d(q||p)。

有人將kl散度稱為kl距離，但事實上，kl散度並不滿足距離的概念，因為：

1）kl散度不是對稱的；

2）kl散度不滿足三角不等式。。

特別的，在資訊理論中，d(p||q)表示當用概率分布q來擬合真實分布p時，產生的資訊損耗，其中p表示真實分布，q表示p的擬合分布,模型分布。

kl距離在資訊檢索領域，以及統計自然語言方面有重要的運用。h(

p||q

)=h(

p,q)

−h(p

)=−∑

i=1n

p(xi

)log

2q(x

i)−(

−∑i=

1np(

xi)l

og2p

(xi)

)=∑i

=1np

(xi)

log2

p(xi

)q(x

i)簡單理解下，h(

p)理解為真實分布編碼長度， h(

p,q)

理解為用q模擬真實分布的編碼長度， h(

p||q

) 理解為模擬到真實的差距。

熵，交叉熵，相對熵（KL散度）

熵，交叉熵，相對熵（KL散度）

自資訊,KL散度 相對熵 ,交叉熵

相對熵（KL散度）

相關推薦

自資訊,KL散度相對熵 ,交叉熵