夏農墒 交叉熵

2021-10-25 10:30:07 字數 1027 閱讀 9936

1948 年,夏農提出了「資訊熵」(shāng) 的概念,解決了對資訊的量化度量問題

實質就是:資訊不確定性的多少。

對於任意乙個隨機變數 x,它的熵定義如下:

變數的不確定性越大,熵也就越大,把它搞清楚所需要的資訊量也就越大。

非常好的解釋:

kl散度(度量2個概率分布之間的距離差異)公式:

交叉熵公式:

交叉熵=kl散度-熵

kl散度是非負的。

最小化kl散度 等價於 最小化交叉熵。

為什麼它會在分類問題中這麼有效呢?

主要原因是邏輯回歸配合mse損失函式時,採用梯度下降法進行學習時,會出現模型一開始訓練時,學習速率非常慢的情況。

使用mse的乙個缺點就是其偏導值在輸出概率值接近0或者接近1的時候非常小,這可能會造成模型剛開始訓練時,偏導值幾乎消失。

cross entropy error function(交叉熵損失函式)該函式是凸函式,求導時能夠得到全域性最優值。

資訊增益 夏農熵

在劃分資料集之前之後資訊發生的變化稱為資訊增益,計算每個特徵值劃分資料集獲得的資訊增益,獲得資訊增益最高的特徵就是最好的選擇。集合資訊的度量方式稱為夏農熵或者簡稱為熵,熵定義為資訊的期望值。何為資訊,如果待分類的事物的標籤佔總標籤的百分比為p xi 則符號xi的資訊定義為 計算熵,則需要計算所有類別...

熵與交叉熵

針對引文中的問題 如果乙個字出現的頻率為yi 則該字所使用的編碼bit數為lo g1yi 如果整段文字的概率分布都已知,那我們可以得出編碼乙個字所需的最優bit數 h y iyil og1y i 其中h y 就是熵 如果我們已知的是乙個錯誤的分布,並且使用該分布確定的編碼bit數,稱為交叉熵h y ...

決策樹 夏農熵

熵 entropy 是表示隨機變數不確定性的度量.所以熵越小越好 之所以po出來是因為裡面好多小函式自己找了好久 r語言用的人太少了 好痛苦 computing shannonent calshannonent function dataset t null shannonent 0 for i i...