資訊熵 交叉熵公式的理解

2021-08-19 23:04:53 字數 2620 閱讀 2483

代表**資訊量(不確定度)**的大小。變數的不確定性越大,熵也就越大,把它搞清楚所需要的資訊量也就越大。

###二 資訊熵的公式定義:

h (x

)=e[

log2

p(x)

−1]=

∑ip(

xi)∗

log2

p(xi

)−

1h(x) = e [ log_2 p(x)^ ] = \sum_p(x_i) *log_2p(x_i)^

h(x)=e

[log

2​p(

x)−1

]=∑i

​p(x

i​)∗

log2

​p(x

i​)−

1###三 資訊熵的公式理解:

1 為什麼熵(資訊量/不確定度)要定義成關於隨機變數的函式?

從這個例子看出,資訊的量度應該依賴於隨機變數出現的概率分布,所以說熵的定義應該是概率p(x)的函式。

2 為什麼熵(資訊量/不確定度)要定義成對數形式?

3 為什麼熵(資訊量/不確定度)的定義有負號?

4 為什麼熵(資訊量/不確定度)定義中對數的底數怎麼取?

5 為什麼要取均值?相對熵(relative entropy)就是kl散度(kullback–leibler divergence),用於衡量兩個概率分布之間的差異

對於兩個概率分布p(x

)p(x)

p(x)

和q (x

)q(x)

q(x)

,其相對熵的計算公式為交叉熵減去資訊熵

k l(

p∣∣q

)=−∑

ip(x

i)ln

q(xi

)−(−

∑ip(

xi)l

np(x

i)

)kl(p||q) = - \sum_p(x_i)ln q(x_i)- (-\sum_p(x_i)ln p(x_i))

kl(p∣∣

q)=−

∑i​p

(xi​

)lnq

(xi​

)−(−

∑i​p

(xi​

)lnp

(xi​

))= −∑

ip(x

i)ln

q(xi

)p(x

i)

=- \sum_p(x_i)ln \frac

=−i∑​p

(xi​

)lnp

(xi​

)q(x

i​)​

注意:由於p(x

)p(x)

p(x)

和q (x

)q(x)

q(x)

在公式中的地位不是相等的,所以相對熵的特點kl(

p∣∣q

)≠kl

(q∣∣

p)

kl(p||q) \neq kl(q||p)

kl(p∣∣

q)​

=kl(

q∣∣p

),是只有 p(x

)=q(

x)

p(x)=q(x)

p(x)=q

(x) 時,其值為0。若 p(x

)p(x)

p(x)

和q (x

)q(x)

q(x)

略有差異,其值就會大於0。其證明利用了負對數函式 ln(

x)

ln(x)

ln(x

) 是嚴格凸函式(strictly convex function)的性質。相對熵公式的前半部分 就是交叉熵(cross entropy)。若p(x

)p(x)

p(x)

是資料的真實概率分布,q(x

)q(x)

q(x)

是由資料計算得到的概率分布。機器學習的目的就是希望q(x

)q(x)

q(x)

盡可能地逼近甚至等於 p(x

)p(x)

p(x)

,從而使得相對熵接近最小值0. 由於真實的概率分布是固定的,相對熵公式的後半部分 −∑i

p(xi

)lnp

(xi)

)-\sum_p(x_i)ln p(x_i))

−∑i​p(

xi​)

lnp(

xi​)

)資訊熵就成了乙個常數。那麼相對熵達到最小值的時候,也意味著交叉熵達到了最小值。對 p(x

)p(x)

p(x)

的優化就等效於求交叉熵的最小值。另外,對交叉熵求最小值,也等效於求最大似然估計(maximum likelihood estimation)。具體可以參考deep learning 5.5 maximum likelihood estimation.

這部分**:

資訊熵,交叉熵和相對熵

怎樣去量化資訊?一些大牛對某些問題的見解,我們會說乾貨滿滿,就代表這個見解具有很大的資訊。對於一些不太確定的事,比如一場足球比賽的結果,會有勝平負三種情況,有不確定的情況,但如果某人有直接的內幕訊息,說這場主隊穩輸,因為 這樣的乙個資訊就具有很大的資訊量了,因為不確定的事情變得十分確定。如果有人告訴...

對資訊量,熵,相對熵,交叉熵的理解

下面自己做個總結。假設x是乙個離散型隨機變數,其取值集合為c,概率分布函式p x pr x x x c,則定義事件x xi 的資訊量 為 上式有兩個含義 1 當事件發生前,表示該事件發生的不確定性 2 當事件發生後,標是該事件所提供的資訊量 資訊量的單位取決於對數所取的底,若以2為底,單位為位元,以...

熵 相對熵 交叉熵等理解

假設我們聽到了兩件事,分別如下 事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說,顯而易見事件b的資訊量比事件a的資訊量要大。究其原因,是因為事件a發生的概率很大,事件b發生的概率很小。所以當越不可能的事件發生了,我們獲取到的資訊量就越大。越可能發生的...