代表**資訊量(不確定度)**的大小。變數的不確定性越大,熵也就越大,把它搞清楚所需要的資訊量也就越大。
###二 資訊熵的公式定義:
h (x
)=e[
log2
p(x)
−1]=
∑ip(
xi)∗
log2
p(xi
)−
1h(x) = e [ log_2 p(x)^ ] = \sum_p(x_i) *log_2p(x_i)^
h(x)=e
[log
2p(
x)−1
]=∑i
p(x
i)∗
log2
p(x
i)−
1###三 資訊熵的公式理解:
1 為什麼熵(資訊量/不確定度)要定義成關於隨機變數的函式?
從這個例子看出,資訊的量度應該依賴於隨機變數出現的概率分布,所以說熵的定義應該是概率p(x)的函式。
2 為什麼熵(資訊量/不確定度)要定義成對數形式?
3 為什麼熵(資訊量/不確定度)的定義有負號?
4 為什麼熵(資訊量/不確定度)定義中對數的底數怎麼取?
5 為什麼要取均值?相對熵(relative entropy)就是kl散度(kullback–leibler divergence),用於衡量兩個概率分布之間的差異。
對於兩個概率分布p(x
)p(x)
p(x)
和q (x
)q(x)
q(x)
,其相對熵的計算公式為交叉熵減去資訊熵:
k l(
p∣∣q
)=−∑
ip(x
i)ln
q(xi
)−(−
∑ip(
xi)l
np(x
i)
)kl(p||q) = - \sum_p(x_i)ln q(x_i)- (-\sum_p(x_i)ln p(x_i))
kl(p∣∣
q)=−
∑ip
(xi
)lnq
(xi
)−(−
∑ip
(xi
)lnp
(xi
))= −∑
ip(x
i)ln
q(xi
)p(x
i)
=- \sum_p(x_i)ln \frac
=−i∑p
(xi
)lnp
(xi
)q(x
i)
注意:由於p(x
)p(x)
p(x)
和q (x
)q(x)
q(x)
在公式中的地位不是相等的,所以相對熵的特點kl(
p∣∣q
)≠kl
(q∣∣
p)
kl(p||q) \neq kl(q||p)
kl(p∣∣
q)
=kl(
q∣∣p
),是只有 p(x
)=q(
x)
p(x)=q(x)
p(x)=q
(x) 時,其值為0。若 p(x
)p(x)
p(x)
和q (x
)q(x)
q(x)
略有差異,其值就會大於0。其證明利用了負對數函式 ln(
x)
ln(x)
ln(x
) 是嚴格凸函式(strictly convex function)的性質。相對熵公式的前半部分 就是交叉熵(cross entropy)。若p(x
)p(x)
p(x)
是資料的真實概率分布,q(x
)q(x)
q(x)
是由資料計算得到的概率分布。機器學習的目的就是希望q(x
)q(x)
q(x)
盡可能地逼近甚至等於 p(x
)p(x)
p(x)
,從而使得相對熵接近最小值0. 由於真實的概率分布是固定的,相對熵公式的後半部分 −∑i
p(xi
)lnp
(xi)
)-\sum_p(x_i)ln p(x_i))
−∑ip(
xi)
lnp(
xi)
)資訊熵就成了乙個常數。那麼相對熵達到最小值的時候,也意味著交叉熵達到了最小值。對 p(x
)p(x)
p(x)
的優化就等效於求交叉熵的最小值。另外,對交叉熵求最小值,也等效於求最大似然估計(maximum likelihood estimation)。具體可以參考deep learning 5.5 maximum likelihood estimation.
這部分**:
資訊熵,交叉熵和相對熵
怎樣去量化資訊?一些大牛對某些問題的見解,我們會說乾貨滿滿,就代表這個見解具有很大的資訊。對於一些不太確定的事,比如一場足球比賽的結果,會有勝平負三種情況,有不確定的情況,但如果某人有直接的內幕訊息,說這場主隊穩輸,因為 這樣的乙個資訊就具有很大的資訊量了,因為不確定的事情變得十分確定。如果有人告訴...
對資訊量,熵,相對熵,交叉熵的理解
下面自己做個總結。假設x是乙個離散型隨機變數,其取值集合為c,概率分布函式p x pr x x x c,則定義事件x xi 的資訊量 為 上式有兩個含義 1 當事件發生前,表示該事件發生的不確定性 2 當事件發生後,標是該事件所提供的資訊量 資訊量的單位取決於對數所取的底,若以2為底,單位為位元,以...
熵 相對熵 交叉熵等理解
假設我們聽到了兩件事,分別如下 事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說,顯而易見事件b的資訊量比事件a的資訊量要大。究其原因,是因為事件a發生的概率很大,事件b發生的概率很小。所以當越不可能的事件發生了,我們獲取到的資訊量就越大。越可能發生的...