熵的公式:
h (x
)=−∑
i=1n
p(xi
)logp
(xi)
h(x)=-\sum_^ p\left(x_\right) \log p\left(x_\right)
h(x)=−
i=1∑
np(
xi)
logp(x
i)log的原因是,一條資訊的可能性數量隨著位數的增加是指數的。用二進位制bit表示,1bit有2個狀態,2bit有4個狀態,nbit有2^n個可能狀態。可能性的數量隨指數上公升,指數那麼變回線性的形式就是log咯~至於對數的底是e還是2無所謂,只是乙個比例因子而已。一條資訊是log,n條資訊就是nlog咯。最後,熵表示混亂度,考慮到符合物理意義理解的話,加上負號。最後就是形如h(x
)=−∑
i=1n
p(xi
)logp
(xi)
h(x)=-\sum_^ p\left(x_\right) \log p\left(x_\right)
h(x)=−
∑i=1
np(
xi)
logp(x
i)。michael ding說:最後這句話,「熵表示混亂度」, 這句話是從物理熵(熱力學熵)的角度來理解的吧,從資訊熵角度來理解是資訊的豐富程度我覺得好有道理……
熵的含義:
樣本集合不純度,熵越小,集合不純度越低;
知識的不確定性,熵越小,不確定性越小;
系統的複雜度,熵越大,系統越複雜。(系統越複雜,出現不同情況越多,資訊量越大,熵越大。)
資訊量是對資訊的度量,就好比公尺是對距離的度量。資訊量到底多大,跟發生的事件有關,具體說跟事件發生的概率有關。舉兩個例子說一下:
刷微博,發現新聞哪位明星出軌了,關鍵這位明星是給大家的印象很好。於是,我告訴朋友,誰誰出軌了,朋友驚訝地說:「呀,怎麼可能啊!」(這是一事件,發生概率小,但是給我們帶來了很大的資訊,即資訊量卻很大。也就是說,越不可能發生的事件發生了,則由其帶來的資訊量就越大。)
一朋友談了朋友,幾年後跟我說他們要結婚了,我說:「恭喜啊!修成正果。」(這一事件相對於上一事件來說,資訊量不是那麼大,原因是,他們結婚或者沒在一起了都是意料之中的事情。也就是說,越能意識到的事情發生了(大概率事件發生了),則由其帶來的資訊量越小。)
事件發生的概率與資訊量之間關係圖:
後面的式子會有具體的關係,這條線是與x軸相交於(1,0)點的。
假設有兩個不相關的事件x、y,x、y分別為這兩個事件的取值。
這兩個事件的聯合資訊:h(x,y) = h(x) + h(y)
這兩個事件的聯合概率:p(x,y) = p(x)p(y)
上面列的兩個式子是有原因的,還是那句話,資訊量到底多大,跟發生的事件有關,具體說跟事件發生的概率有關。
因此,h(x)跟p(x)有關,再根據上面的兩個式子,h(x)肯定跟p(x)的對數有關。
兩點說明:
越不可能發生的事件發生了,則由其帶來的資訊量就越大。上式滿足;
底數2純屬是遵循資訊理論裡的熵。當然,其他底也是可以的。
資訊量是一具體事件發生所帶來的資訊;
資訊熵則是一事件所有可能性產生資訊量的期望。
所以,有下式子:
h (x
)=−∑
i=1n
p(xi
)logp
(xi)
h(x)=-\sum_^ p\left(x_\right) \log p\left(x_\right)
h(x)=−
i=1∑
np(
xi)
logp(x
i)
總結,就一句話,資訊熵是一事件所有可能性產生資訊量的期望。
本次參考了憶臻的機器學習演算法與自然語言處理。
熵 相對熵 交叉熵等理解
假設我們聽到了兩件事,分別如下 事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說,顯而易見事件b的資訊量比事件a的資訊量要大。究其原因,是因為事件a發生的概率很大,事件b發生的概率很小。所以當越不可能的事件發生了,我們獲取到的資訊量就越大。越可能發生的...
熵與交叉熵
針對引文中的問題 如果乙個字出現的頻率為yi 則該字所使用的編碼bit數為lo g1yi 如果整段文字的概率分布都已知,那我們可以得出編碼乙個字所需的最優bit數 h y iyil og1y i 其中h y 就是熵 如果我們已知的是乙個錯誤的分布,並且使用該分布確定的編碼bit數,稱為交叉熵h y ...
熵與條件熵
熵 熵是表示隨機變數不確定性的度量,設x是乙個取有限個值的離散隨機變數,其概率分布為 則隨機變數x的熵定義為 若乙個隨機變數只有兩個值,那麼當x的分別為為p x1 p x2 0.5的時候,熵最大,變數也最不確定。條件熵設有隨機變數 x,y 其聯合概率分布為 這裡注意,這個條件熵,不是指的 舉個例子 ...