針對引文中的問題:如果乙個字出現的頻率為yi
,則該字所使用的編碼bit數為lo
g1yi
。如果整段文字的概率分布都已知,那我們可以得出編碼乙個字所需的最優bit數:h(
y)=∑
iyil
og1y
i ,其中h(
y)就是熵
如果我們已知的是乙個錯誤的分布,並且使用該分布確定的編碼bit數,稱為交叉熵h(
y)=∑
iyil
og1y
i∗交叉熵總是比熵大
kl散度用於衡量熵與交叉熵的差異kl
(y||
y∗)=
∑iyi
log1yi
∗−∑i
yilog1yi
kl散度也可以用來衡量兩個分布之間的差異,但是kl散度是非對稱的
可以直接將kl散度作為損失函式。但交叉熵與kl散度之間的差異就是−∑
iyilog1y
i 而這部分與**值並無關係,故實際中往往將交叉熵作為損失函式
資訊熵,交叉熵和相對熵
怎樣去量化資訊?一些大牛對某些問題的見解,我們會說乾貨滿滿,就代表這個見解具有很大的資訊。對於一些不太確定的事,比如一場足球比賽的結果,會有勝平負三種情況,有不確定的情況,但如果某人有直接的內幕訊息,說這場主隊穩輸,因為 這樣的乙個資訊就具有很大的資訊量了,因為不確定的事情變得十分確定。如果有人告訴...
熵 相對熵 交叉熵等理解
假設我們聽到了兩件事,分別如下 事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說,顯而易見事件b的資訊量比事件a的資訊量要大。究其原因,是因為事件a發生的概率很大,事件b發生的概率很小。所以當越不可能的事件發生了,我們獲取到的資訊量就越大。越可能發生的...
10 資訊熵與交叉熵推導
人們常常說資訊很多,或者資訊較少,但卻很難說清楚資訊到底有多少。比如一本五十萬字的中文書到底有多少資訊量,夏農 資訊理論之父 提出了 資訊熵 的概念,資訊熵用來描述信源的不確定度,熵在資訊理論中代表隨機變數不確定度的度量。熵越大,資料的不確定性越高,熵越小,資料的不確定性約低 當得知乙個特徵條件之後...