資訊理論 學習筆記

2021-10-11 02:04:26 字數 2476 閱讀 8037

克勞德·夏農(claude shannon),美國數學家、電子工程師和密碼學家,被譽為資訊理論的創始人。

資訊理論是在資訊可以量度的基礎上,研究有效和可靠的傳遞資訊的科學,它涉及資訊量度、資訊特性、資訊傳輸速率、通道容量、干擾對資訊傳輸的影響等方面的知識。

資訊量是對資訊的度量。

多少資訊用資訊量來衡量,我們接受到的資訊量跟具體發生的事件有關。

資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大,如湖南產生的**了;越大概率的事情發生了產生的資訊量越小,如太陽從東邊公升起來了(肯定發生嘛,沒什麼資訊量)。

資訊量的公式如下:

熵是表示隨機變數不確定性的度量。

資訊熵是衡量隨機變數分布的混亂程度,是隨機分布各事件發生的資訊量的期望值,隨機變數的取值個數越多,狀態數也就越多,資訊熵就越大,混亂程度就越大。當隨機分布為均勻分布時,熵最大;資訊熵推廣到多維領域,則可得到聯合資訊熵。

資訊量度量的是乙個具體事件發生了所帶來的資訊,而熵則是在結果出來之前對可能產生的資訊量的期望,考慮該隨機變數的所有可能取值,即所有可能發生事件所帶來的資訊量的期望。即為下面的公式:

下圖為概率和熵之間的關係:

如果乙個系統越簡單,出現情況種類很少(極端情況為1種情況,那麼對應概率為1,那麼對應的資訊熵為0),此時的資訊熵較小。

熵越大,隨機變數的不確定越大。

條件熵:定義為x給定條件下,y的條件概率分布的熵對x的數學期望。

條件熵h(y|x)表示在已知隨機變數x的條件下隨機變數y的不確定性。隨機變數x給定的條件下隨機變數y的條件熵h(y|x)。

其中公式推導如下:

這個條件熵,是指在給定某個數(某個變數為某個值)的情況下,另乙個變數的熵是多少,變數的不確定性是多少。 因為條件熵中x也是乙個變數,意思是在乙個變數x的條件下(變數x的每個值都會取),另乙個變數y熵對x的期望。

設 p(x)、q(x) 是 離散隨機變數 x 中取值的兩個概率分布,則 p 對 q 的相對熵是:

kl散度的性質如下:

如果 p(x) 和 q(x) 兩個分布相同,那麼相對熵等於0。

dkl(p||q)≠dkl(q||p) ,相對熵具有不對稱性。

dkl(p||q)≥0

kl散度公式推導:

(左半部分為資訊熵h(x),右半部分為交叉熵js)

kl散度的作用是衡量兩個分布之間的差異性。相對熵可以用來衡量兩個概率分布之間的差異,上面公式的意義就是求 p 與 q 之間的對數差在 p 上的期望值。

如果使用非真實分布 q(x) 表示來自真實分布 p(x) 的平均編碼長度,則是:h(p,q)=∑p(x)log1/q(x)。(因為用 q(x) 來編碼的樣本來自於分布 q(x) ,所以 h(p,q) 中的概率是 p(x))。此時就將 h(p,q) 稱之為交叉熵。

交叉熵的公式:

(在類別確定的情況下,衡量兩個分布之間的差異。)

交叉熵可以來衡量在給定的真實分布下,使用非真實分布所指定的策略消除系統的不確定性所需要付出的努力的大小。(衡量兩堆真實資料分布之間的距離,是離散值,標籤是稀疏的one-hot)。

互資訊的公式如下:

互資訊i (x; y) 是在知道了y 的值後x 的不確定性的減少量。即y 的值透露了多少關於x 的資訊量.

舉個例子,假設h(x)用一塊糖來表示,y代表一杯水,h(x|y)也就是將這杯水倒在糖上,h(x)還剩多少,那麼溶於水的那部分糖就是y給h(x)帶來的損失,即就是互資訊。

聯合熵就是度量乙個聯合分布的隨機系統的不確定度。

聯合熵的物理意義:觀察乙個多個隨機變數的隨機系統獲得的資訊量。

從圖中可以看出,條件熵可以通過聯合熵( h(x|y) = h(x, y) - h(y) )表示,也可以通過熵 - 互資訊( h(x|y) = h(x) - i(x; y) )表示。

資訊理論筆記

i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...

資訊理論學習

條件熵和聯合熵 h x y z h x z h y x,z h x,y z h x z h y x,z h x,y z h x z h y x,z 互資訊基本性質 對稱性x,y顛倒位置相等 非負性肯定大於等於零 級值性互資訊不可能比自身還大 可加性 例題題目 25個銅幣有一枚質量不同,通過天平最少能...

資訊理論 複習筆記

典型序列 信源有p個編碼,每個編碼有乙個出現的概率 那麼對於這個信源發出的n長序列 一共有pn個n長序列 其中有一小部分,出現的概率較大,稱為典型序列 其他的序列,出現的概率特別小,稱為非典型序列 計算典型序列的概率 2 n h x p 2 n h x 表示,將序列出現的概率 作為典型序列 n 序列...