感謝原文:
熵用來表示乙個隨機變數資訊量的期望;
相對熵(kl散度)用來衡量隨機變數不同分布之間的差異。在機器學習的分類問題中,p表示標準分類結果,q表示學習得到的分類結果,那麼p和q之間的相對熵越小,就說明q的分類效果越好(接近正確結果p)。訓練的目的就是獲得更加標註的分布q,使得p,q之間的交叉熵更小。
交叉熵實際訓練中,對相對熵做一些變形的話,就會發現其中會改變的只是一部分,這一部分成為交叉熵
在機器學習中,線性回歸問題往往使用「平方均值誤差」作為損失函式,但分類問題卻往往使用交叉熵作為損失函式。
至於其原因,可能是交叉熵可以解決非線性問題?
交叉熵在機器學習中的使用
概率越小,資訊量越大,事件x x 0x x 0 x x0 的資訊量為 i x 0 log p x0 i x 0 log p x 0 i x0 lo g p x0 熵表示所有資訊量的期望 h x i 1n p xi log p x i h x sum n p x i log p x i h x i 1...
Softmax 以及 交叉熵損失函式 的求導
output later 有k個神經元,有k個輸入和輸出。為了分別標記輸入和輸出,用ai 1,k 來表示output layer的輸入資料,yj 1,k 來表示output layer輸出點資料。每個輸入資料ai 1,k 和隱藏層的h個塊之間是全連線的。這裡要求的是代價函式對每個輸入資料的導數 i ...
對機器學習中資訊熵的理解 交叉熵損失函式
剛開始看id3 c4.5 cart等演算法時,不怎麼理解資訊熵,後來看了幾篇部落格時才發現可以拿來解釋我們常用的二分類損失函式。參考 資訊熵 l1 l2正則化與交叉熵 相對熵 機器學習 四 從資訊理論交叉熵的角度看softmax 邏輯回歸損失 資訊熵是拿來消除系統不確定性的,指代的是資訊的含量 資訊...