1.熵(資訊熵)的定義:不妨把資訊熵理解成某種特定資訊的出現概率(離散隨機事件的出現概率)。乙個系統越是有序,資訊熵就越低;反之,乙個系統越是混亂,資訊熵就越高。資訊熵也可以說是系統有序化程度的乙個度量。如果乙個隨機變數
2.相對熵:又稱互熵,交叉熵,鑑別資訊,kullback熵,kullback-leible散度(kl散度)等。設
在一定程度上,熵可以度量兩個隨機變數的距離。kl散度是兩個概率分布p和q差別的非對稱性的度量,所以相對熵有非對稱性。典型情況下,p表示資料的真實分布,q表示資料的理論分布,模型分布,或p的近似分布。
3.相對熵的性質:
a.非對稱性:相對熵直觀上理解是個距離度量或距離函式,但它並不是乙個真正的度量或者距離,因為它不具有對稱性,即
b.非負性:即
可以通過吉布斯不等式來證明,
4.相對熵的應用:相對熵是比較兩個概率分布的距離(相似度),因此可以用於文字相似度的計算;還可以用於權重指標的分配。
機器學習之資訊量,熵,相對熵,交叉熵概念辨析
可能性越小的事件其資訊量越大,極端情況下,確定事件的資訊量為0。事件 a aa 的資訊量為 ia log p a i a logp a ia l ogp a p a p a p a 為事件 a aa 發生的概率。熵就是乙個隨機變數x所有事件的資訊量的期望 例如隨機變數x xx表示明天的天氣,所有事件...
詳解機器學習中的熵 聯合熵 條件熵 相對熵和交叉熵
4 相對熵 relative entropy 也稱kl散度 kullback leibler divergence 5 交叉熵 cross entropy 但是真實分布不可知,假設訓練資料是從真實資料中獨立同分布取樣的,p train p real 因此,我們希望學到的模型分布至少和訓練資料的分布一...
機器學習 一文理清資訊熵,相對熵,交叉熵
夏農提出資訊熵主要是用來解決對資訊的量化度量問題,比如說存在選項 a,b,c,d 若每個字母都用8位ascii碼儲存,則表示這個四個選項需要32位bit。如果此時採用二進位制的話,4個選項用2位bit便可表示 00,01,10,11 於是對4個選項資訊進行量化為log 2 4 2 2 4 2 log...