1,資訊
\( i(x)=-log(p(x)) \)
事件x不確定性的度量,不確定性越大,資訊量越大。
從資訊編碼角度,這是編碼這一資訊所需要的最小位元數(log以2為底,以e為底的叫做奈特)。
2,熵
\( h(x) = \sum_x \)
隨機變數x不確定的度量,資訊的期望,不確定性越大,熵越大。
從資訊編碼角度講,熵是對資訊進行編碼所需要的平均位元長度的最低值。
3,聯合熵
\( h(x,y) = \sum_\)
4,條件熵
\( h(x|y) = h(x,y) - h(y) \)
\( = -\sum_p(x,y)logp(x,y)+\sum_yp(y)logp(y) \)
\( = -\sum_p(x,y)logp(x,y)+\sum_y\sum_xp(x,y)logp(y) \) #邊緣概率
\( = -\sum_p(x,y)log\frac \)
\( = -\sum_\)
熵,聯合熵,條件熵的關係
5,互資訊
描述事件x發生後,對事件y不確定性的消除
i(y,x) = i(y)-i(y|x) = log(p(y|x)/p(y)) = log(後驗概率/先驗概率)
對稱性:i(y,x)=i(x,y)
6,平均互資訊
\( i(x;y)= \sum_= \sum_}= \sum_} \)
= h(x)-h(x|y) ----資訊增益
= h(y)-h(y|x)
=h(x)+h(y)-h(x,y)
=h(x,y)-h(x|y)-h(y|x)
=d(p(x,y)||p(x)p(y))
在有些文章裡,會把平均互資訊叫做互資訊。
熵、聯合熵、交叉熵、互資訊的關係
7,交叉熵
衡量兩個分布的差異性
\(h(p|q)=-\sum_x\)
可以認為p為真實分布,q為近似分布。
8,相對熵(kl散度)
kullback-leible散度,也是用於衡量兩個分布的差異性
\( kl(p||q) = \sum_x} \)
很容易推導得到kl(p||q)=h(p|q)-h(p)
h(p)用來表示編碼的期望長度,h(p|q)表示用近似分布編碼的期望長度。我們將由q得到的平均編碼長度比由p得到的平均編碼長度多出的bit數稱為「相對熵」,也就是kl散度。
比如td-idf演算法就可以理解為相對熵的應用:詞頻在整個語料庫的分布與詞頻在具體文件中分布之間的差異性。
交叉熵和kl的關係
總結:
學習數學系列《一》
內容摘自 微積分摘要 高等數學ppt 由於標題寫高數有圈粉嫌疑,所以還是寫一些比較樸素的名字。實際上這個算是高等數學的學習。前幾天被一位神犇虐數學虐到哭所以自己還是默默地拿起了書。進入正題 第一節 1.1集合的對映 如果有一種規律f使得a中每乙個元素 x 都能與b中的唯一確定的元素f x 對應,那麼...
機器學習 3 資訊理論
1.資訊熵 給定概率密度函式 p x 定義該函式的資訊熵 h p h mathbf int lnp mathbf d mathbf 資訊熵描述了分布的混亂程度。均勻分布是使得資訊熵最大的概率分布。單點的衝擊響應函式對應的資訊熵最小 2.相對熵 給定兩個概率密度函式 p x 和 q x 描述二者之間的...
機器學習之數學系列(四)推導線性支援向量機SVM
支援向量機 svm 是乙個二分類模型,它的學習思路是在特徵空間中尋找幾何間隔最大的分離超平面。對支援向量機的研究分成三類1.線性可分支援向量機 2.線性支援向量機 3.非線性支援向量機。本文主要推導線性支援向量機的相關公式,因為線性可分支援向量機是線性支援向量機的特殊情況,而線性支援向量機又可以推廣...