先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂
資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義
如果隨機變數p=
,他的概率p,
i∈,則隨機變數p=
的熵定義為 h(
p)=−
∑i=1
np(x
i)lo
g2p(
xi)
交叉熵(cross entropy),主要用於度量兩個概率分布間的差異性資訊。對乙個離散隨機變數的兩個概率分布p和q來說,他們的交叉熵定義為: h(
p,q)
=−∑i
=1np
(xi)
log2
q(xi
) 特別的在機器學習中,p代表真實分布,q代表模型擬合分布,交叉熵衡量兩個分布之間的差異,交叉熵越小,q就與就接近真實分布p,這也是為什麼我們用最小化交叉熵損失來學習模型,最簡單的邏輯回歸的損失函式: l(
θ)=−
1m∑i
=1m∑
j=01
p(y(
i)=j
|xi)
log2
q(y^
=j|x
i,θ)
,(x(
i),y
(i))
,i∈
其中(x(
i),y
(i))
表示真實資料和標籤。y^
表示模型輸出標籤。q(
y^=0
|xi,
θ)=1
1+e−
θtxi
表示模型分布輸出y^
=0的概率,q(
y^=0
|xi,
θ)=1
−11+
e−θt
xi表示模型分布輸出y^
=1時概率。p(
y(i)
=j|x
i)=1
。把其中j取值到n就是softmax分類損失了。
對乙個離散隨機變數的兩個概率分布p和q來說,他們的kl散度定義為: h(
p||q
)=∑i
=1np
(xi)
log2
p(xi
)q(x
i)相對熵(relative entropy)又稱為kl散度(kullback–leibler divergence,簡稱kld),資訊散度(information divergence),資訊增益(information gain),是描述兩個概率分布p和q差異的一種方法。它是非對稱的,這意味著d(p||q) ≠ d(q||p)。
有人將kl散度稱為kl距離,但事實上,kl散度並不滿足距離的概念,因為:
1)kl散度不是對稱的;
2)kl散度不滿足三角不等式。。
特別的,在資訊理論中,d(p||q)表示當用概率分布q來擬合真實分布p時,產生的資訊損耗,其中p表示真實分布,q表示p的擬合分布,模型分布。
kl距離在資訊檢索領域,以及統計自然語言方面有重要的運用。h(
p||q
)=h(
p,q)
−h(p
)=−∑
i=1n
p(xi
)log
2q(x
i)−(
−∑i=
1np(
xi)l
og2p
(xi)
)=∑i
=1np
(xi)
log2
p(xi
)q(x
i)簡單理解下,h(
p)理解為真實分布編碼長度, h(
p,q)
理解為用q模擬真實分布的編碼長度, h(
p||q
) 理解為模擬到真實的差距。
熵,交叉熵,相對熵(KL散度)
參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...
自資訊,KL散度 相對熵 ,交叉熵
深度學習 p47 自資訊 描述乙個所含有的資訊量,概率越小的事件所有包含的資訊量 也叫自資訊 越大,概率越大的事件發生了所包含的自資訊越小。自資訊的數學定義 i x l ogp x huge i x logp x i x logp x 機器學習中log的底一般為為自然對數e ee自資訊只是處理單個的...
相對熵(KL散度)
今天開始來講相對熵,我們知道資訊熵反應了乙個系統的有序化程度,乙個系統越是有序,那麼它的資訊熵就越低,反 之就越高。下面是熵的定義 如果乙個隨機變數 量 有了資訊熵的定義,接下來開始學習相對熵。contents 1.相對熵的認識 2.相對熵的性質 3.相對熵的應用 1.相對熵的認識 相對熵又稱互熵,...