*參考於:
*資訊量可以被看成在學習 x 的值的時候的「驚訝程度」。如果有人告訴我們乙個相當不可能的時間發生了,我們收到的資訊要多於我們被告知某個很可能發生的事件發生時收到的資訊。如果我們知道某件事情一定會發生,那麼我們就不會接收到資訊。於是,我們對於資訊內容的度量將依賴於概率分布p(x)
,因此我們想要尋找乙個函式h(x)
,它是概率p(x)
的單調遞增函式,表達了資訊的內容。如果我們有兩個不相關的事件x
和y
,那麼我們觀察到兩個事件同時發生時獲得的資訊應該等於觀察到事件各自發生時獲得的資訊之和,即h(x,y)= h(x)+h(y)
,我們有h(x) = −log 2 p(x),
其中負號確保了資訊一定是正數或者是零。注意,低概率事件x
對應於高的資訊量。
假設我們沒有看世界盃的比賽,但是想知道哪支球隊會是冠軍,只能去問已經看過比賽的觀眾,但是我們只能猜測某支球隊是或不是冠軍,然後觀眾用對或不對來回答,我們想要猜測次數盡可能少,所用的方法就是二分法。假如有 16 支球隊,分別編號,先問是否在 1-8 之間,如果是就繼續問是否在 1-4 之間,以此類推,直到最後判斷出冠軍球隊是哪只。如果球隊數量是 16,我們需要問 4 次來得到最後的答案。那麼世界冠軍這條訊息的資訊量就是 4。在計算機中,這條資訊的資訊量就是 4 位元bit,如果一共是 32 支球隊參賽,那麼世界冠軍的資訊量就是 5 位元,可以看到資訊量跟可能情況的對數 log (以 2 為底)有關(這裡大概有點知道為什麼求熵的公式裡會有乙個 log 了)。 但是以往經驗表示,如果世界盃有 32 支球隊參賽,有些球隊實力很強,拿到冠軍的可能性更大,而有些隊伍拿冠軍的概率就很小。我們在之前用二分法計算的時候其實是看做每個球隊奪冠的概率都相等,因此我們從最可能奪冠的幾支球隊中猜測冠軍球隊,實際需要的資訊量是小於我們之前方法計算的資訊量的。
準確的資訊量應該是:
h = -(p1 * logp1 + p2 * logp2 + ... + p32 * logp32)
,
即資訊量的數學期望,其中p1, ..., p32
分別是這32
支球隊奪冠的概率。我們再回頭驗算一下,當每支球隊奪冠概率相等都是1/32
的時候,h = -(32 * 1/32 * log1/32) = 5
,根據最大熵原理,每個事件概率相同時,熵最大,這件事越不確定。
在資訊理論中,資訊熵是接收的每條訊息中包含的資訊的平均量,即期望。這裡,訊息代表來自分布或資料流中的事件、樣本或特徵。在資訊世界,熵越高,則能傳輸越多的資訊,熵越低,則意味著傳輸的資訊越少。因此資訊熵表示的是資訊的不確定性,資訊熵越高,不確定性就越大,所需要的資訊就越多。當乙個事件的概率是1
的時候我們不需要任何資訊,而乙個事件概率是0
的時候我們需要無窮的資訊。
因此對乙個確定的取值or情況計算熵,一定是0
。
夏農給出的資訊熵公式:
,h
的單位為位元bit
考慮某個未知的分p(x)
,假定我們已經使用乙個近似的分布q(x)
對它進行了建模。如果我們使用q(x)
來建立乙個編碼體系,用來把x
的值傳給接收者,那麼,由於我們使用了q(x)
而不是真實分布p(x)
,因此在具體化x
的值(假定我們選擇了乙個高效的編碼系統)時,我們需要一些附加的資訊。我們需要的平均的附加資訊量(ln對應的單位是 nat ),即相對熵為
互資訊實際上是更廣泛的相對熵的特殊情形,設兩個隨機變數的聯合分布為,邊際分布分別為,互資訊是聯合分布與乘積分布的相對熵,即或使用概率的加和規則和乘積規則,我們看到互資訊和條件熵之間的關係為
可以把互資訊看成由於知道 y 值而造成的 x 的不確定性的減小(反之亦然),即y的值透露了多少關於x 的資訊量,或者乙個隨機變數中包含的關於另乙個隨機變數的資訊量。
這個法則在用互資訊初始化網路裡用到了。則有
i(x,y;class) = h(x,y)-h(x,y|class)
= h(x,y)-[h(x,y,class)-h(class)]
= h(class)+h(x,y)-h(x,y,class)
條件熵h(y|x)
表示在已知隨機變數x的條件下隨機變數y的不確定性。
注意,這個條件熵,不是指在給定某個數(某個變數為某個值)的情況下,另乙個變數的熵是多少,變數的不確定性是多少。 因為條件熵中x也是乙個變數,意思是在乙個變數x的條件下(變數x的每個值都會取),另乙個變數y熵對x的期望。
這是最容易錯的!
熵和互資訊
讀文獻想要算通道容量的時候,遇到了需要用到熵和互資訊相關的推導,所以找紀佬要來資訊理論的課件拿來看了看,在這裡也是乙個記錄。先搬上來兩個定義。熵的定義 互資訊量的定義 好的,掌握到這裡基本上就ok了,但是在資訊理論研究中我們還是要經常用一點條件互資訊的東西,那麼可以用這個venn圖來看。圖轉侵刪 這...
熵,條件熵,互資訊,交叉熵
定義 用來度量資訊的不確定程度。解釋 熵越大,資訊量越大。不確定程度越低,熵越小,比如 明天太陽從東方公升起 這句話的熵為0,因為這個句話沒有帶有任何資訊,它描述的是乙個確定無疑的事情。例子 假設有隨機變數x,用來表達明天天氣的情況。x可能出現三種狀態 1 晴天2 雨天 3 陰天 每種狀態的出現概率...
點互資訊(PMI)和正點互資訊(PPMI)
如下 在概率論中,如果x和y無關,p x,y p x p y 如果x和y越相關,p x,y 和p x p y 的比就越大。從後兩個條件概率可能更好解釋,在y出現的條件下x出現的概率除以單看x出現的概率,這個值越大表示x和y越相關。log來自於資訊理論的理論,而且 log 1 0 也恰恰表明p x,y...