資訊理論基礎

2021-09-12 02:29:18 字數 3106 閱讀 3193

所謂的資訊,就是以前不知道現在知道的事實,如果某件事以前就知道,當別人再告訴你時,你會忽略,這件事對你的認知沒有任何影響,這就不叫資訊,反之,如果某件事以前你不知道,有人告訴你了,你現在知道了,那麼對你而言,這件事就是資訊。

讓我們更進一步,看一件事帶來的資訊量的大小如何來度量。顧名思義,資訊量就是度量資訊大小的一種量,讓我們看乙個形象的例子。有人告訴你巴西贏了世界盃,那麼這件事對大多數人而言,並不值得關注,它並沒有帶來多少驚喜,如果是中國贏得了世界盃,那麼這件事可能會重新整理很多人的世界觀,這件事帶來的資訊量就特別大,我們常說的黑天鵝事件就是概率極低但確實發生了的事件。定性的說,小概率事件帶來的資訊量大,大概率事件帶來的資訊量小。下面我們看下以上這句話如何定量的描述。

用概率來度量資訊是合理的,這並不是空穴來風,半個多世紀之前,夏農提出的資訊理論便是以概率論為基礎。執果索因,我們先來看看夏農為什麼用事件發生概率的對數來度量資訊量。

用概率描述資訊量的重要性質:

通過第三點,我們可以知道:

x 1和

x2同時

發生的概

率:p(

x1,x

2)=p

(x1)

⋅p(x

2)

x_1和x_2同時發生的概率:p(x_1, x_2) = p(x_1)\cdot p(x_2)

x1​和x2

​同時發

生的概率

:p(x

1​,x

2​)=

p(x1

​)⋅p

(x2​)x1

和x2總

資訊量:

log[

p(x1

)p(x

2)]=

log[

p(x1

)]+l

og[p

(x2)

]x_1和x_2總資訊量:log[p(x_1)p(x_2)] = log[p(x_1)] + log[p(x_2)]

x1​和x2

​總資訊

量:lo

g[p(

x1​)

p(x2

​)]=

log[

p(x1

​)]+

log[

p(x2

​)]通過前兩點,我們知道資訊量,資訊量和概率之間一定是減函式的關係。

由此確定,資訊量描述為:

i (x

)=−l

ogp(

x)

i(x) = -logp(x)

i(x)=−

logp

(x)稱i(x

)i(x)

i(x)

為自資訊,如果以 2 為底,單位是bit。當使用以 e 為底的對數時,單位將是 nat。對於基底為 10 的對數,單位是 hart。

對於離散系統

h (x

)=−∑

ipil

og(p

i)

h(x) = -\sum_p_ilog (p_)

h(x)=−

i∑​p

i​lo

g(pi

​)對於連續的系統

h (x

)=ex

∼p[i

(x)]

=−ex

∼p[l

ogp(

x)

]h(x) = e_[i(x)] = - e_[log p(x)]

h(x)=e

x∼p​

[i(x

)]=−

ex∼p

​[lo

gp(x

)]資訊熵反應了資訊量的多少,資訊熵越大表明資訊越多,隨機事件的資訊量與隨機變數的確定性有關,不確定性越大包含的資訊量就越大,所有可能的事件等概率時不確定性最高。

令不完美的編碼用q

qq表示,平均編碼長度為

h (p

,q)=

−ep(

x)q(

x)=−

∫p(x

)log

q(x)

dx

h(p,q) = -e_q(x) = -\int p(x)logq(x)dx

h(p,q)

=−ep

(x)​

q(x)

=−∫p

(x)l

ogq(

x)dx

交叉熵用來衡量編碼方案不一定完美時,平均編碼的長度。

交叉熵常用作損失函式。原因是真實的樣本分佈是p

pp, 而模型概率分布是q

qq, 只有模型分布於真實樣本分佈相等時,交叉熵最小。

d kl

(p∣∣

q)=e

x∼p[

logp

(x)q

(x)]

=∫p(

x)lo

gp(x

)dx−

∫p(x

)log

q(x)

dx

d_(p||q) = e_[log \frac] = \int p(x)logp(x)dx -\int p(x)logq(x)dx

dkl​(p

∣∣q)

=ex∼

p​[l

ogq(

x)p(

x)​]

=∫p(

x)lo

gp(x

)dx−

∫p(x

)log

q(x)

dxkl散度用來衡量兩個概率分布之間的相似程度,其重要性質是非負性,而且,當且僅當兩個概率分布處處相等時,kl散度取到零。kl散度與一般的距離不同,它一般不具有對稱性。

h (p

,q)=

dkl(

p∣∣q

)+h(

p)

h(p, q) = d_(p||q) + h(p)

h(p,q)

=dkl

​(p∣

∣q)+

h(p)

上述關係很容易推導,此處從略,可以看出樣本的真實分布p

pp保持不變,最優化交叉熵等價於最優化kl散度。kl散度還可用於異常檢測。

reference:

資訊理論基礎

資訊理論背後的思想 一件不太可能的事件比一件比較可能的事件更有資訊量。資訊 information 需要滿 的三個條件 較可能發 的事件的資訊量要少。較不可能發 的事件的資訊量要 獨 發 的事件之間的資訊量應該是可以疊加的。例如,投擲的硬幣兩次正 朝上傳遞的資訊量,應該是投擲 次硬幣正 朝上的資訊量...

資訊理論筆記

i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...

資訊理論學習

條件熵和聯合熵 h x y z h x z h y x,z h x,y z h x z h y x,z h x,y z h x z h y x,z 互資訊基本性質 對稱性x,y顛倒位置相等 非負性肯定大於等於零 級值性互資訊不可能比自身還大 可加性 例題題目 25個銅幣有一枚質量不同,通過天平最少能...