交叉熵與KL散度

2021-08-22 10:39:12 字數 1024 閱讀 4418

welcome to my blog

老遇到交叉熵作為損失函式的情況,於是總結一下

交叉熵從kl散度(相對熵)中引出,kl散度(kullback-leibler divergence)公式為:

kl散度是衡量兩個分布之間的差異大小的,kl散度大於等於0,並且越接近0說明p與q這兩個分布越像,當且僅當p與q相等時kl散度取0.

在機器學習的分類問題中,常以交叉熵作為損失函式,此時同樣可以衡量兩個分布的差異.

在分類問題中,某乙個樣本x可能是k種類別中的一種,y(x)代表樣本x對應類別的分布,y^~(x)代表x屬於各個類別的**值的分布,這句話描述的是關於類別的分布,而不是樣本的分布,不要弄混.

訓練時,針對某乙個標籤資訊y(x)是已知的,所以講kl(y(x)||y^~(x))中的h(y(x))是個常數,此時kl散度等價於交叉熵,所以交叉熵可以衡量p(x)與q(x)的差異,我們希望q(x)盡可能地接近p(x),等價於最小化交叉熵

對於某乙個樣本x,其交叉熵為:

對於乙個資料集x,其交叉熵為:

因為訓練集中每個樣本的標籤是已知的,此時標籤和**的標籤之間的kl散度等價於交叉熵.

要認識到,標籤可以看成分布,舉例來說,某個分類任務共有4類,其中乙個樣本的真實標籤分布為(0,0,1,0),**的標籤分布為(0.2,0.1,0.5,0.2),使用交叉熵的目的便是使**的標籤分布盡可能接近(0,0,1,0)

交叉熵 K L散度

資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy,一般用h hh表示。分布的熵的公式如下 h i 1 np x i log p xi h sum p left x right cdot log p left x right h i 1 n p xi logp x i ex...

熵,交叉熵,相對熵(KL散度)

先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...

熵,交叉熵,相對熵(KL散度)

參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...