熵,交叉熵,相對熵(KL散度)

2021-08-08 04:45:20 字數 1893 閱讀 9657

先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂

資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義

如果隨機變數p=

,他的概率p,

i∈,則隨機變數p=

的熵定義為 h(

p)=−

∑i=1

np(x

i)lo

g2p(

xi)

交叉熵(cross entropy),主要用於度量兩個概率分布間的差異性資訊。對乙個離散隨機變數的兩個概率分布p和q來說,他們的交叉熵定義為: h(

p,q)

=−∑i

=1np

(xi)

log2

q(xi

) 特別的在機器學習中,p代表真實分布,q代表模型擬合分布,交叉熵衡量兩個分布之間的差異,交叉熵越小,q就與就接近真實分布p,這也是為什麼我們用最小化交叉熵損失來學習模型,最簡單的邏輯回歸的損失函式: l(

θ)=−

1m∑i

=1m∑

j=01

p(y(

i)=j

|xi)

log2

q(y^

=j|x

i,θ)

,(x(

i),y

(i))

,i∈

其中(x(

i),y

(i))

表示真實資料和標籤。y^

表示模型輸出標籤。q(

y^=0

|xi,

θ)=1

1+e−

θtxi

表示模型分布輸出y^

=0的概率,q(

y^=0

|xi,

θ)=1

−11+

e−θt

xi表示模型分布輸出y^

=1時概率。p(

y(i)

=j|x

i)=1

。把其中j取值到n就是softmax分類損失了。

對乙個離散隨機變數的兩個概率分布p和q來說,他們的kl散度定義為: h(

p||q

)=∑i

=1np

(xi)

log2

p(xi

)q(x

i)相對熵(relative entropy)又稱為kl散度(kullback–leibler divergence,簡稱kld),資訊散度(information divergence),資訊增益(information gain),是描述兩個概率分布p和q差異的一種方法。它是非對稱的,這意味著d(p||q) ≠ d(q||p)。

有人將kl散度稱為kl距離,但事實上,kl散度並不滿足距離的概念,因為:

1)kl散度不是對稱的;

2)kl散度不滿足三角不等式。。

特別的,在資訊理論中,d(p||q)表示當用概率分布q來擬合真實分布p時,產生的資訊損耗,其中p表示真實分布,q表示p的擬合分布,模型分布。

kl距離在資訊檢索領域,以及統計自然語言方面有重要的運用。h(

p||q

)=h(

p,q)

−h(p

)=−∑

i=1n

p(xi

)log

2q(x

i)−(

−∑i=

1np(

xi)l

og2p

(xi)

)=∑i

=1np

(xi)

log2

p(xi

)q(x

i)簡單理解下,h(

p)理解為真實分布編碼長度, h(

p,q)

理解為用q模擬真實分布的編碼長度, h(

p||q

) 理解為模擬到真實的差距。

熵,交叉熵,相對熵(KL散度)

參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...

自資訊,KL散度 相對熵 ,交叉熵

深度學習 p47 自資訊 描述乙個所含有的資訊量,概率越小的事件所有包含的資訊量 也叫自資訊 越大,概率越大的事件發生了所包含的自資訊越小。自資訊的數學定義 i x l ogp x huge i x logp x i x logp x 機器學習中log的底一般為為自然對數e ee自資訊只是處理單個的...

相對熵(KL散度)

今天開始來講相對熵,我們知道資訊熵反應了乙個系統的有序化程度,乙個系統越是有序,那麼它的資訊熵就越低,反 之就越高。下面是熵的定義 如果乙個隨機變數 量 有了資訊熵的定義,接下來開始學習相對熵。contents 1.相對熵的認識 2.相對熵的性質 3.相對熵的應用 1.相對熵的認識 相對熵又稱互熵,...