1.在資訊理論中,熵被用來衡量乙個隨機變數出現的期望值。它代表了在被接收之前,訊號傳輸過程中損失的資訊量,又被稱為資訊熵。資訊熵也稱信源熵、平均自資訊量。
2.從直觀上說,資訊熵越大,變數包含的資訊量越大,變數的不確定性也越大。乙個事物內部會存在隨機性,也就是不確定性,而從外部消除這個不確定性唯一的辦法是引入資訊。如果沒有資訊,任何公式或者數字的遊戲都無法排除不確定性。幾乎所有的自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程。
3.4.夏農把隨機變數在資訊理論
中,熵是接收的每條訊息中包含的資訊的平均量,又被稱為資訊熵、信源熵、平均自資訊量。這裡,
訊息代表來自分布或資料流中的事件、樣本或特徵。(熵最好理解為不確定性的量度而不是確定性的量度,因為越隨機的信源的熵越大。)來自信源的另乙個特徵是樣本的概率分布。這裡的想法是,比較不可能發生的事情,當它發生了,會提供更多的
資訊。由於一些其他的原因(下面會有解釋),把資訊(熵)定義為概率分布的對數的相反數是有道理的。事件的概率分布和每個事件的資訊量構成了乙個隨機變數,這個隨機變數的均值(即
期望)就是這個分布產生的資訊量的平均值(即熵)。熵的單位通常為位元,但也用sh、nat、hart計量,取決於定義用到對數的底。
x的熵值 η(希臘字母eta)定義如下,其值域為 :
其中, p 為
x的概率質量函式(probability mass function),e 為期望函
數,而 i(x) 是
x的資訊量(又稱為自資訊)。i(x) 本身是個隨機變數。
當取自有限的樣本時,熵的公式可以表示為:
在這裡
b是對數所使用的底,通常是 2, 自然常數
e,或是10。當b
= 2,熵的單
位是bit;當b
= e,熵的單位是
nat;而當
b= 10,熵的單位是 hart。
pi = 0時,對於一些i值,對應的被加數0 logb
0的值將會是0,這與極限一致。
還可以定義事件 x與
y分別取
xi 和
yj 時的條件熵為
其中 p(xi
, yj
) 為 x=
xi 且 y=
yj 時的概率。這個量應當理解為你知道
y的值
前提下隨機變數
x的隨機性的量。
例子如下:
如果有乙個系統s內存在多個事件s = ,每個事件的概率分布 p = ,則每個事件本身的訊息(自資訊)為:
如英語有26個字母,假如每個字母在文章中出現次數平均的話,每個字母的訊息量 為:
而漢字常用的有2500個,假如每個漢字在文章中出現次數平均的話,每個漢字的信
息量為:
機器學習筆記 資訊熵
機器學習筆記 knn 機器學習筆記 決策樹 機器學習筆記 邏輯回歸 機器學習筆記 資訊熵 資訊的大小跟隨機事件的概率有關 越小概率的事情發生了產生的資訊量越大 目睹飛碟 越大概率的事情發生了產生的資訊量越小 太陽東昇西落 因此乙個具體事件的資訊量應該是隨著其發生概率而遞減的,且不能為負。而資訊熵則是...
機器學習之資訊熵
資訊熵的公式 先丟擲資訊熵公式如下 其中 p xi 代表隨機事件x為 xi的概率,下面來逐步介紹資訊熵的公式 資訊量是對資訊的度量,就跟時間的度量是秒一樣,當我們考慮乙個離散的隨機變數x的時候,當我們觀察到的這個變數的乙個具體值的時候,我們接收到了多少資訊呢?多少資訊用資訊量來衡量,我們接受到的資訊...
機器學習 資訊熵 資訊增益的概念
資訊熵表示 隨機變數 的不確定性。不確定性越大 即所謂的資訊量越大 資訊熵越大。首先從直覺上來講,是可以的。不然我們怎麼覺得有的人廢話特別多,卻沒什麼資訊量 而有的人一語中的,一句話就傳達了很大的資訊量。有些事情本來不是很確定 例如 明天 是漲是跌 1 明天nba決賽開始了 和 跌漲 沒關係,所以 ...