機器學習中的數學系列 資訊理論

2022-05-14 23:41:16 字數 1915 閱讀 7399

1,資訊

\( i(x)=-log(p(x)) \)

事件x不確定性的度量,不確定性越大,資訊量越大。

從資訊編碼角度,這是編碼這一資訊所需要的最小位元數(log以2為底,以e為底的叫做奈特)。

2,熵

\( h(x) = \sum_x \)

隨機變數x不確定的度量,資訊的期望,不確定性越大,熵越大。

從資訊編碼角度講,熵是對資訊進行編碼所需要的平均位元長度的最低值。

3,聯合熵

\( h(x,y) = \sum_\) 

4,條件熵

\( h(x|y) = h(x,y) - h(y)  \)

\( = -\sum_p(x,y)logp(x,y)+\sum_yp(y)logp(y) \)

\( = -\sum_p(x,y)logp(x,y)+\sum_y\sum_xp(x,y)logp(y) \)  #邊緣概率

\( = -\sum_p(x,y)log\frac \)

\( = -\sum_\)

熵,聯合熵,條件熵的關係

5,互資訊

描述事件x發生後,對事件y不確定性的消除

i(y,x) = i(y)-i(y|x) = log(p(y|x)/p(y)) = log(後驗概率/先驗概率)

對稱性:i(y,x)=i(x,y)

6,平均互資訊

\( i(x;y)= \sum_= \sum_}= \sum_} \)

= h(x)-h(x|y)  ----資訊增益

= h(y)-h(y|x)

=h(x)+h(y)-h(x,y)

=h(x,y)-h(x|y)-h(y|x)

=d(p(x,y)||p(x)p(y))

在有些文章裡,會把平均互資訊叫做互資訊。

熵、聯合熵、交叉熵、互資訊的關係

7,交叉熵

衡量兩個分布的差異性

\(h(p|q)=-\sum_x\)

可以認為p為真實分布,q為近似分布。

8,相對熵(kl散度)

kullback-leible散度,也是用於衡量兩個分布的差異性

\( kl(p||q) = \sum_x} \)

很容易推導得到kl(p||q)=h(p|q)-h(p)

h(p)用來表示編碼的期望長度,h(p|q)表示用近似分布編碼的期望長度。我們將由q得到的平均編碼長度比由p得到的平均編碼長度多出的bit數稱為「相對熵」,也就是kl散度。

比如td-idf演算法就可以理解為相對熵的應用:詞頻在整個語料庫的分布與詞頻在具體文件中分布之間的差異性。

交叉熵和kl的關係

總結:

學習數學系列《一》

內容摘自 微積分摘要 高等數學ppt 由於標題寫高數有圈粉嫌疑,所以還是寫一些比較樸素的名字。實際上這個算是高等數學的學習。前幾天被一位神犇虐數學虐到哭所以自己還是默默地拿起了書。進入正題 第一節 1.1集合的對映 如果有一種規律f使得a中每乙個元素 x 都能與b中的唯一確定的元素f x 對應,那麼...

機器學習 3 資訊理論

1.資訊熵 給定概率密度函式 p x 定義該函式的資訊熵 h p h mathbf int lnp mathbf d mathbf 資訊熵描述了分布的混亂程度。均勻分布是使得資訊熵最大的概率分布。單點的衝擊響應函式對應的資訊熵最小 2.相對熵 給定兩個概率密度函式 p x 和 q x 描述二者之間的...

機器學習之數學系列(四)推導線性支援向量機SVM

支援向量機 svm 是乙個二分類模型,它的學習思路是在特徵空間中尋找幾何間隔最大的分離超平面。對支援向量機的研究分成三類1.線性可分支援向量機 2.線性支援向量機 3.非線性支援向量機。本文主要推導線性支援向量機的相關公式,因為線性可分支援向量機是線性支援向量機的特殊情況,而線性支援向量機又可以推廣...