深度學習之 交叉熵和KL散度區別

2021-09-25 14:35:39 字數 446 閱讀 4552

交叉熵可在神經網路(機器學習)中作為損失函式,p表示真實標記的分布,q則為訓練後的模型的**標記分布,交叉熵損失函式可以衡量真實分布p與當前訓練得到的概率分布q有多麼大的差異。

相對熵(relative entropy)就是kl散度(kullback–leibler divergence),用於衡量兩個概率分布之間的差異。

對於兩個概率分布

注意:由於

相對熵的特點,是只有

相對熵公式的前半部分

若注意:交叉熵是衡量分布p與分布q的相似性,以前認為交叉熵的相似性越大,交叉熵的值就應該越大。但通過上面的推到可以看出,交叉熵得到兩個分布的相似性是根據相對熵來的,所以相似性越大,交叉熵的值應該越小。

交叉熵可在神經網路(機器學習)中作為損失函式,p表示真實標記的分布,q則為訓練後的模型的**標記分布,交叉熵損失函式可以衡量真實分布p與當前訓練得到的概率分布q有多麼大的差異。

KL 散度和交叉熵

相對熵 relative entropy 就是 kl 散度 kullback leibler divergence 用於衡量兩個概率分布之間的差異。舉個例子 假設我們發現了一些太空蠕蟲,這些太空蠕蟲的牙齒數量各不相同。現在我們需要將這些資訊發回地球。但從太空向地球傳送資訊的成本很高,所以我們需要用盡...

交叉熵 K L散度

資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy,一般用h hh表示。分布的熵的公式如下 h i 1 np x i log p xi h sum p left x right cdot log p left x right h i 1 n p xi logp x i ex...

熵,交叉熵,相對熵(KL散度)

先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...