資訊量等於不確定性的大小。
自資訊:一件不太可能的事發生,要比一件非常可能的事發生,提供更多的資訊i(x
)=−l
ogp(
x)
i(x)=-logp(x)
i(x)=−
logp
(x)資訊熵:量化整個概率分布中的不確定性總量h(x
)=ex
∼p[i
(x)]
=−∑x
∈xp(
x)lo
gp(x
)h(x)= e_[i(x)]=-\sum_p(x)logp(x)
h(x)=e
x∼p
[i(x
)]=−
x∈x∑
p(x
)log
p(x)
資訊的作用在於消除不確定性。nlp的大量問題就是尋找相關的資訊。
"相關"的資訊(如上下文)能夠消除不確定性h(x
)≥h(
x∣y)
h(x)\ge h(x|y)
h(x)≥h
(x∣y
)當獲取的資訊與所研究的事物毫無關係時等號成立。 i(x
;y)=
∑x∈x
,y∈y
p(x,
y)lo
gp(x
,y)p
(x)p
(y
)i(x;y)=\sum_p(x,y)log\frac
i(x;y)
=x∈x
,y∈y
∑p(
x,y)
logp
(x)p
(y)p
(x,y
)應用解決翻譯中二義性問題,如bush既是美國**布希的名字,也表灌木叢。首先從大量文字中找出和布希一起出現的互資訊最大的一些詞,像**、美國、國會,同樣找出和灌木叢一起出現的互資訊最大的詞,像土壤、植物等。然後在翻譯bush時看看上下文中哪一類相關的詞多就可以了。
定義:p對q的kl散度dp(
q)=e
x∼p[
logp
(x)q
(x)]
=∑x∈
xp(x
)log
p(x)
q(x)
d_p(q) =e_[log\frac]=\sum_p(x)log\frac
dp(q)
=ex∼
p[l
ogq(
x)p(
x)]
=x∈x
∑p(
x)lo
gq(x
)p(x
)kl 散度越小,真實分布與近似分布之間的匹配就越好。
性質:(1) 非負性:kl 散度為 0 當且僅當p 和 q 在離散型變數的情況下是相同的分布,或者在連續型變數的情況下是「幾乎處處」相同的
(2)不對稱性:dp(
q)!=
dq(p
)d_p(q) != d_q(p)
dp(q)
!=dq
(p)
應用:衡量兩個常用詞(在語法和語義上)在兩個不同文字中的概率分布,看是否同義;計算詞頻率-逆向文件頻率(tf-idf)
定義:用乙個猜測的分布的編碼方式去編碼其真實的分布,得到的平均編碼長度或者資訊量 hp(
q)=−
ex∼p
logq
(x)=
−∑x∈
xp(x
)log
q(x)
h_p(q)=-e_logq(x)=-\sum_p(x)logq(x)
hp(q)
=−ex
∼pl
ogq(
x)=−
x∈x∑
p(x
)log
q(x)
上式即為用猜的的p分布,去編碼原本真是為q的分布,得到的資訊量
應用:交叉熵在機器學習領域中經常作為最後的損失函式,只有當猜測的分布約接近於真實分布,則交叉熵越小。 比如根據自己模型得到的a的概率是80%,得到b的概率是20%,真實的分布是應該得到a,則意味著得到a的概率是100%,所以 l=−
∑iyi
log(
p(xi
))+(
1−yi
)log
(1−p
(xi)
)l=-\sum_iy_ilog(p(x_i))+(1-y_i)log(1-p(x_i))
l=−i∑
yil
og(p
(xi
))+(
1−yi
)lo
g(1−
p(xi
))針對 q 最小化交叉熵等價於最小化 p 對 q 的 kl 散度,因為 q 並不參與被省略的h(p
)h(p)
h(p)項。hp(
q)=h
(p)+
dp(q
)h_p(q)=h(p)+d_p(q)
hp(q)
=h(p
)+dp
(q)
TensorFlow 資訊理論 資訊熵2
tensorflow 資訊理論 資訊熵2 flyfish tensorflow 資訊理論 資訊熵1 熵是接收的每條訊息中包含的資訊的平均量,又被稱為資訊熵 信源熵 平均自資訊量 自資訊量已經知道它的意思,平均自資訊量就是加權平均 在資訊理論裡 熵,資訊熵 信源熵 平均自資訊量都是乙個意思 乙個系統的...
MLAPP Chapter2 資訊理論
資訊理論關注的是以一種緊湊的方式表示資料 一種稱為資料壓縮或源 編碼的任務 以及以一種對錯誤 一種稱為錯誤修正或通道編碼的任務 魯棒性很好的方式傳輸和儲存資料。起初,這似乎與概率論和機器學習的關注點相去甚遠,但實際上有一種親密的聯絡。要了解這一點,請注意,緊湊地表示資料需要將短碼字分配到可能性高的位...
資訊理論筆記
i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...