剛開始看id3、c4.5、cart等演算法時,不怎麼理解資訊熵,後來看了幾篇部落格時才發現可以拿來解釋我們常用的二分類損失函式。
參考:資訊熵
l1\l2正則化與交叉熵、相對熵
機器學習(四)從資訊理論交叉熵的角度看softmax/邏輯回歸損失
資訊熵是拿來消除系統不確定性的,指代的是資訊的含量
資訊熵的定義公式:
其中,我們一般log以2為底,指代的是單位為bit的資訊量
(若對數函式以e為底,單位為奈特(nat);若對數函式以10為底,單位為哈特(hartly))如英語有26個字母,假如每個字母在文章**現次數平均的話,每個字母的資訊量為
而漢字常用的有2500個,假如每個漢字在文章**現次數平均的話,每個漢字的資訊量為
熵,對於二值事件來說,
h(x)= - [p * log( p )+(1 - p)* log(1 - p)]
交叉熵
同樣是衡量兩個分布之間的相似性。x代表樣本集合,p(x)表示真實,q(x)表示**
如果是0-1事件,則:
這是乙個樣本的損失,將所有樣本的損失組合起來就是我們用的很多的邏輯回歸損失函式了
理解交叉熵
首先說說概率論的期望值 期望 表示隨機變數的均值 如果變數滿足均勻分布,那麼期望 均值 比如拋硬幣問題 然後理解什麼是熵。熵 表示所有資訊量的期望,資訊量 log的底數是可以改變的,預設底數為2 我們說,概率越小,表示資訊量越大 比如中國隊進入世界盃決賽,這就是小概率事件,則資訊量大,熵也大 熵的定...
對資訊量,熵,相對熵,交叉熵的理解
下面自己做個總結。假設x是乙個離散型隨機變數,其取值集合為c,概率分布函式p x pr x x x c,則定義事件x xi 的資訊量 為 上式有兩個含義 1 當事件發生前,表示該事件發生的不確定性 2 當事件發生後,標是該事件所提供的資訊量 資訊量的單位取決於對數所取的底,若以2為底,單位為位元,以...
資訊熵 交叉熵公式的理解
代表 資訊量 不確定度 的大小。變數的不確定性越大,熵也就越大,把它搞清楚所需要的資訊量也就越大。二 資訊熵的公式定義 h x e log2 p x 1 ip xi log2 p xi 1h x e log 2 p x sum p x i log 2p x i h x e log 2 p x 1 i...