交叉熵和kl散度
資訊熵h(x)可以看做,對x中的樣本進行編碼所需要的編碼長度的期望值。
這裡可以引申出交叉熵的理解,現在有兩個分布,真實分布p和非真實分布q,我們的樣本來自真實分布p。
按照真實分布p來編碼樣本所需的編碼長度的期望為資訊熵h( p )
按照不真實分布q來編碼樣本所需的編碼長度的期望為交叉熵h( p,q )
這裡引申出kl散度d(p||q)= h(p,q) - h(p) =相對熵,它表示兩個分布的差異,差異越大,相對熵越大。
機器學習中,我們用非真實分布q去**真實分布p,因為真實分布p是固定的,d(p||q) = h(p,q) - h(p) 中 h(p) 固定,也就是說交叉熵h(p,q)越大,相對熵d(p||q)越大,兩個分布的差異越大。
所以交叉熵用來做損失函式就是這個道理,它衡量了真實分布和**分布的差異性。
交叉熵 K L散度
資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy,一般用h hh表示。分布的熵的公式如下 h i 1 np x i log p xi h sum p left x right cdot log p left x right h i 1 n p xi logp x i ex...
熵,交叉熵,相對熵(KL散度)
先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...
熵,交叉熵,相對熵(KL散度)
參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...