所謂的資訊,就是以前不知道現在知道的事實,如果某件事以前就知道,當別人再告訴你時,你會忽略,這件事對你的認知沒有任何影響,這就不叫資訊,反之,如果某件事以前你不知道,有人告訴你了,你現在知道了,那麼對你而言,這件事就是資訊。
讓我們更進一步,看一件事帶來的資訊量的大小如何來度量。顧名思義,資訊量就是度量資訊大小的一種量,讓我們看乙個形象的例子。有人告訴你巴西贏了世界盃,那麼這件事對大多數人而言,並不值得關注,它並沒有帶來多少驚喜,如果是中國贏得了世界盃,那麼這件事可能會重新整理很多人的世界觀,這件事帶來的資訊量就特別大,我們常說的黑天鵝事件就是概率極低但確實發生了的事件。定性的說,小概率事件帶來的資訊量大,大概率事件帶來的資訊量小。下面我們看下以上這句話如何定量的描述。
用概率來度量資訊是合理的,這並不是空穴來風,半個多世紀之前,夏農提出的資訊理論便是以概率論為基礎。執果索因,我們先來看看夏農為什麼用事件發生概率的對數來度量資訊量。
用概率描述資訊量的重要性質:
通過第三點,我們可以知道:
x 1和
x2同時
發生的概
率:p(
x1,x
2)=p
(x1)
⋅p(x
2)
x_1和x_2同時發生的概率:p(x_1, x_2) = p(x_1)\cdot p(x_2)
x1和x2
同時發
生的概率
:p(x
1,x
2)=
p(x1
)⋅p
(x2)x1
和x2總
資訊量:
log[
p(x1
)p(x
2)]=
log[
p(x1
)]+l
og[p
(x2)
]x_1和x_2總資訊量:log[p(x_1)p(x_2)] = log[p(x_1)] + log[p(x_2)]
x1和x2
總資訊
量:lo
g[p(
x1)
p(x2
)]=
log[
p(x1
)]+
log[
p(x2
)]通過前兩點,我們知道資訊量,資訊量和概率之間一定是減函式的關係。
由此確定,資訊量描述為:
i (x
)=−l
ogp(
x)
i(x) = -logp(x)
i(x)=−
logp
(x)稱i(x
)i(x)
i(x)
為自資訊,如果以 2 為底,單位是bit。當使用以 e 為底的對數時,單位將是 nat。對於基底為 10 的對數,單位是 hart。
對於離散系統
h (x
)=−∑
ipil
og(p
i)
h(x) = -\sum_p_ilog (p_)
h(x)=−
i∑p
ilo
g(pi
)對於連續的系統
h (x
)=ex
∼p[i
(x)]
=−ex
∼p[l
ogp(
x)
]h(x) = e_[i(x)] = - e_[log p(x)]
h(x)=e
x∼p
[i(x
)]=−
ex∼p
[lo
gp(x
)]資訊熵反應了資訊量的多少,資訊熵越大表明資訊越多,隨機事件的資訊量與隨機變數的確定性有關,不確定性越大包含的資訊量就越大,所有可能的事件等概率時不確定性最高。
令不完美的編碼用q
qq表示,平均編碼長度為
h (p
,q)=
−ep(
x)q(
x)=−
∫p(x
)log
q(x)
dx
h(p,q) = -e_q(x) = -\int p(x)logq(x)dx
h(p,q)
=−ep
(x)
q(x)
=−∫p
(x)l
ogq(
x)dx
交叉熵用來衡量編碼方案不一定完美時,平均編碼的長度。
交叉熵常用作損失函式。原因是真實的樣本分佈是p
pp, 而模型概率分布是q
qq, 只有模型分布於真實樣本分佈相等時,交叉熵最小。
d kl
(p∣∣
q)=e
x∼p[
logp
(x)q
(x)]
=∫p(
x)lo
gp(x
)dx−
∫p(x
)log
q(x)
dx
d_(p||q) = e_[log \frac] = \int p(x)logp(x)dx -\int p(x)logq(x)dx
dkl(p
∣∣q)
=ex∼
p[l
ogq(
x)p(
x)]
=∫p(
x)lo
gp(x
)dx−
∫p(x
)log
q(x)
dxkl散度用來衡量兩個概率分布之間的相似程度,其重要性質是非負性,而且,當且僅當兩個概率分布處處相等時,kl散度取到零。kl散度與一般的距離不同,它一般不具有對稱性。
h (p
,q)=
dkl(
p∣∣q
)+h(
p)
h(p, q) = d_(p||q) + h(p)
h(p,q)
=dkl
(p∣
∣q)+
h(p)
上述關係很容易推導,此處從略,可以看出樣本的真實分布p
pp保持不變,最優化交叉熵等價於最優化kl散度。kl散度還可用於異常檢測。
reference:
資訊理論基礎
資訊理論背後的思想 一件不太可能的事件比一件比較可能的事件更有資訊量。資訊 information 需要滿 的三個條件 較可能發 的事件的資訊量要少。較不可能發 的事件的資訊量要 獨 發 的事件之間的資訊量應該是可以疊加的。例如,投擲的硬幣兩次正 朝上傳遞的資訊量,應該是投擲 次硬幣正 朝上的資訊量...
資訊理論筆記
i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...
資訊理論學習
條件熵和聯合熵 h x y z h x z h y x,z h x,y z h x z h y x,z h x,y z h x z h y x,z 互資訊基本性質 對稱性x,y顛倒位置相等 非負性肯定大於等於零 級值性互資訊不可能比自身還大 可加性 例題題目 25個銅幣有一枚質量不同,通過天平最少能...