ML小結2 資訊理論

2021-09-11 22:49:48 字數 2578 閱讀 1580

資訊量等於不確定性的大小。

自資訊:一件不太可能的事發生,要比一件非常可能的事發生,提供更多的資訊i(x

)=−l

ogp(

x)

i(x)=-logp(x)

i(x)=−

logp

(x)資訊熵:量化整個概率分布中的不確定性總量h(x

)=ex

∼p[i

(x)]

=−∑x

∈xp(

x)lo

gp(x

)h(x)= e_[i(x)]=-\sum_p(x)logp(x)

h(x)=e

x∼p​

[i(x

)]=−

x∈x∑

​p(x

)log

p(x)

資訊的作用在於消除不確定性。nlp的大量問題就是尋找相關的資訊。

"相關"的資訊(如上下文)能夠消除不確定性h(x

)≥h(

x∣y)

h(x)\ge h(x|y)

h(x)≥h

(x∣y

)當獲取的資訊與所研究的事物毫無關係時等號成立。 i(x

;y)=

∑x∈x

,y∈y

p(x,

y)lo

gp(x

,y)p

(x)p

(y

)i(x;y)=\sum_p(x,y)log\frac

i(x;y)

=x∈x

,y∈y

∑​p(

x,y)

logp

(x)p

(y)p

(x,y

)​應用解決翻譯中二義性問題,如bush既是美國**布希的名字,也表灌木叢。首先從大量文字中找出和布希一起出現的互資訊最大的一些詞,像**、美國、國會,同樣找出和灌木叢一起出現的互資訊最大的詞,像土壤、植物等。然後在翻譯bush時看看上下文中哪一類相關的詞多就可以了。

定義:p對q的kl散度dp(

q)=e

x∼p[

logp

(x)q

(x)]

=∑x∈

xp(x

)log

p(x)

q(x)

d_p(q) =e_[log\frac]=\sum_p(x)log\frac

dp​(q)

=ex∼

p​[l

ogq(

x)p(

x)​]

=x∈x

∑​p(

x)lo

gq(x

)p(x

)​kl 散度越小,真實分布與近似分布之間的匹配就越好。

性質:(1) 非負性:kl 散度為 0 當且僅當p 和 q 在離散型變數的情況下是相同的分布,或者在連續型變數的情況下是「幾乎處處」相同的

(2)不對稱性:dp(

q)!=

dq(p

)d_p(q) != d_q(p)

dp​(q)

!=dq

​(p)

應用:衡量兩個常用詞(在語法和語義上)在兩個不同文字中的概率分布,看是否同義;計算詞頻率-逆向文件頻率(tf-idf)

定義:用乙個猜測的分布的編碼方式去編碼其真實的分布,得到的平均編碼長度或者資訊量 hp(

q)=−

ex∼p

logq

(x)=

−∑x∈

xp(x

)log

q(x)

h_p(q)=-e_logq(x)=-\sum_p(x)logq(x)

hp​(q)

=−ex

∼p​l

ogq(

x)=−

x∈x∑

​p(x

)log

q(x)

上式即為用猜的的p分布,去編碼原本真是為q的分布,得到的資訊量

應用:交叉熵在機器學習領域中經常作為最後的損失函式,只有當猜測的分布約接近於真實分布,則交叉熵越小。 比如根據自己模型得到的a的概率是80%,得到b的概率是20%,真實的分布是應該得到a,則意味著得到a的概率是100%,所以 l=−

∑iyi

log(

p(xi

))+(

1−yi

)log

(1−p

(xi)

)l=-\sum_iy_ilog(p(x_i))+(1-y_i)log(1-p(x_i))

l=−i∑​

yi​l

og(p

(xi​

))+(

1−yi

​)lo

g(1−

p(xi

​))針對 q 最小化交叉熵等價於最小化 p 對 q 的 kl 散度,因為 q 並不參與被省略的h(p

)h(p)

h(p)項。hp(

q)=h

(p)+

dp(q

)h_p(q)=h(p)+d_p(q)

hp​(q)

=h(p

)+dp

​(q)

TensorFlow 資訊理論 資訊熵2

tensorflow 資訊理論 資訊熵2 flyfish tensorflow 資訊理論 資訊熵1 熵是接收的每條訊息中包含的資訊的平均量,又被稱為資訊熵 信源熵 平均自資訊量 自資訊量已經知道它的意思,平均自資訊量就是加權平均 在資訊理論裡 熵,資訊熵 信源熵 平均自資訊量都是乙個意思 乙個系統的...

MLAPP Chapter2 資訊理論

資訊理論關注的是以一種緊湊的方式表示資料 一種稱為資料壓縮或源 編碼的任務 以及以一種對錯誤 一種稱為錯誤修正或通道編碼的任務 魯棒性很好的方式傳輸和儲存資料。起初,這似乎與概率論和機器學習的關注點相去甚遠,但實際上有一種親密的聯絡。要了解這一點,請注意,緊湊地表示資料需要將短碼字分配到可能性高的位...

資訊理論筆記

i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...