MLAPP Chapter2 資訊理論

2021-08-21 10:31:05 字數 1947 閱讀 4714

資訊理論關注的是以一種緊湊的方式表示資料(一種稱為資料壓縮或源**編碼的任務),以及以一種對錯誤(一種稱為錯誤修正或通道編碼的任務)魯棒性很好的方式傳輸和儲存資料。

起初,這似乎與概率論和機器學習的關注點相去甚遠,但實際上有一種親密的聯絡。要了解這一點,請注意,緊湊地表示資料需要將短碼字分配到可能性高的位字串,並將較長的碼字保留到不太可能的位字串。

這與自然語言中的情況類似,在自然語言中,常見的詞(如「a」、「the」、「and」)通常比罕見的詞短得多。此外,要解碼通過雜訊通道傳送的訊息,需要有乙個良好的關於人們傳送的訊息型別傾向的概率模型。在這兩種情況下,我們都需要乙個模型來**哪種資料是可能的,哪種是不可能的,這也是機器學習中的乙個核心問題(有關資訊理論和機器學習之間的聯絡的更多細節,請參見mackay 2003)。

乙個分布為p的隨機變數x,他的熵用h(x)或h(p)表示,熵是不確定性的測度。特別地,對於有k個狀態的離散變數,定義為: h(

x)≜−

∑k=1

kp(x

=k)l

og2p

(x=k

) h(x

)≜−∑

k=1k

p(x=

k)lo

g2p(

x=k)

通常我們用log_2,在這種情況下單位被稱為位(bits)(二進位制數字binary digits的縮寫)。如果用log以e為底,單位稱為nats。

均勻分布是熵最大的離散型分布。因此,對於k元隨機變數,當p(

x=k)

=1/k

p (x

=k)=

1/

k時,熵最大,此時h(

x)=l

og2k

h (x

)=lo

g2k。

相反,熵最小的分布(為0)是任何乙個把質量都放在乙個狀態上的delta函式。這樣的分布沒有任何的不確定性。

一種測量兩個概率分布(p和q)的不相似性的方法被稱為kullleibler散度(kl散度)或相對熵。定義如下: kl

(p||

q)≜∑

k=1k

pklo

gpkq

k kl(

p||q

)≜∑k

=1kp

klog

pkqk

將和替換成概率密度函式的積分,重寫如下: kl

(p||

q)=∑

kpklogpk

−∑kp

klogqk

=−h(

p)+h

(p,q

) kl(

p||q

)=∑k

pk

log⁡pk

−∑kp

klog⁡q

k=−h

(p)+

h(p,

q)

h(p,q) h(p

,q

)被稱為交叉熵: h(

p,q)

≜−∑k

pklogq

k h(p

,q)≜

−∑kp

klog⁡q

k交叉熵是當我們使用模型q定義我們的碼本時,用分布為p的資料來源進行編碼所需的平均位元數。如果我們用真是模型,h(p)是期望的位元值,所以kl散度是它們之間的差。換句話說,kl散度是編碼資料所需的額外位元的平均數,因為我們使用分布q來編碼資料,而不是真正的分布p。

「額外的位元數」說明kl

(p||

q)≥0

k l(

p||q

)≥

0並且僅當p=q時為0,現在給出乙個重要結論:

定理2.8.1(資訊不平等) kl

(p||

q)≥0

除非p=

q kl(

p||q

)≥0除

非p=q

(待續….)

學生資訊(2)

完成日期 2014年05月08 版本號 v1.0 問題描述 樣例輸入 樣例輸出 問題分析 用簡單的方法,學會活學活用 include using namespace std class stu 宣告基類 void display 成員函式,輸出基類資料成員 protected 訪問許可權為保護型的資...

TensorFlow 資訊理論 資訊熵2

tensorflow 資訊理論 資訊熵2 flyfish tensorflow 資訊理論 資訊熵1 熵是接收的每條訊息中包含的資訊的平均量,又被稱為資訊熵 信源熵 平均自資訊量 自資訊量已經知道它的意思,平均自資訊量就是加權平均 在資訊理論裡 熵,資訊熵 信源熵 平均自資訊量都是乙個意思 乙個系統的...

資訊檢索導論2

5.索引壓縮 有失真壓縮 大小寫轉換,詞幹還原 停用詞剔除 向量空間模型 lsa 隱性語義分析 等 無失真壓縮 下面介紹的壓縮方法 heaps定律 詞項數目的估計 m kt b m 詞項數,t 文件集合中詞條個數,30 k 100,b 0.5 zipf定律 詞項在文件中分布的估計 排名第i多的詞項的...