機器學習之資訊量,熵,相對熵,交叉熵概念辨析

2021-10-08 04:29:50 字數 2601 閱讀 2845

可能性越小的事件其資訊量越大,極端情況下,確定事件的資訊量為0。

事件 a

aa 的資訊量為 ia=

−log

p(a)

i_a = -logp(a)

ia​=−l

ogp(

a), p (a

)p(a)

p(a)

為事件 a

aa 發生的概率。

熵就是乙個隨機變數x所有事件的資訊量的期望

例如隨機變數x

xx表示明天的天氣,所有事件為x

1x_1

x1​=晴天,x

2x_2

x2​=雨天,x

3x_3

x3​=多雲,對應的概率為p(x

1)

p(x_1)

p(x1​)

=0.3,p(x

2)

p(x_2)

p(x2​)

=0.5,p(x

3)

p(x_3)

p(x3​)

=0.2,那麼隨機變數x

xx的熵為:

− p(

x1)l

ogp(

x1)+

−p(x

2)lo

gp(x

2)+−

p(x3

)log

p(x3

)-p(x_1)logp(x_1)+ -p(x_2)logp(x_2)+ -p(x_3)logp(x_3)

−p(x1​

)log

p(x1

​)+−

p(x2

​)lo

gp(x

2​)+

−p(x

3​)l

ogp(

x3​)

補充:數學期望(mean)(或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和

相對熵用來衡量同乙個隨機變數可能的不同分布之間的差異

機器學習分類任務中,樣本屬於哪乙個類別(假設它是乙個隨機變數y

yy),存在乙個真實分布q(y

)q(y)

q(y)

和**分布g(y

)g(y)

g(y)

,我個人覺得機器學習的本質是通過反覆訓練大量有限的已知樣本來使每乙個樣本的**分布g(y

)g(y)

g(y)

盡可能地逼近真實分布q(y

)q(y)

q(y)

,從而獲得模型引數,這些引數的實際意義可以理解為在一定程度上描述了所有樣本中各個屬性對某個樣本屬於哪乙個類別的重要程度,即屬性權重。

因為樣本的真實分布無法知道,所以一般用樣本屬於哪一類別的概率表示,對於已知標籤的樣本,它的分布概率取值範圍為0或者1,即它的標籤類別概率為1,其他類別概率為0。一般q(y

)q(y)

q(y)

用one-hot形式表示

例如3分類任務中,q(y

)q(y)

q(y)

=[0,1,0],表示該樣本為屬於第二類。g(y

)g(y)

g(y)

=[0.3,0.5,0.2],這兩個分布之間的差異計算公式為:

x

ix_i

xi​表示第i

ii個樣本,n

nn表示類別總數,dkl

d_dk

l​的值越**明**分布和真實分布越相似。kl散度是非對稱的,一般是真實分布做分子,**分布做分母,表示的是**的出來分布相對於真實分布的差異。

d kl

d_dk

l​表示式展開的後一項即就是交叉熵,即交叉熵的定義公式:

當q (x

i)

q(x_i)

q(xi​)

用one-hot形式表示概率,g(x

i)

g(x_i)

g(xi​)

用softmax計算概率(不一定使用softmax計算),softmax loss 和cross entropy loss就是一樣的。

在計算機視覺中,一般乙個做多分類的網路的結構為:多個卷積層(池化)->乙個或者兩個全連線層->softmax層,softmax層的神經元個數由類別數決定(例如有10類,那麼softmax層就有10個神經元),每個神經元的輸出表示著輸入樣本屬於該神經元代表的類的概率,他們的和為1。數學計算公式為:

q (x

i)

q(x_i)

q(xi​)

表示樣本標籤概率分布,g(x

i)

g(x_i)

g(xi​)

表示神經網路的輸出概率分布,n

nn為類別數。

ogistic regression解決的是二分類問題,所以可以把它是softmax loss的一種特例。所以它的損失計算公式可以簡化為:

這裡的n

nn=2,說明只有兩類

資訊量 資訊熵 交叉熵 相對熵

1 資訊量 陳羽凡吸毒?工作室不是剛闢謠了嗎?哇!資訊量好大!在生活中,極少發生的事情最容易引起吃瓜群眾的關注。而經常發生的事情則不會引起注意,比如吃瓜群眾從來不會去關係明天太陽會不會東邊公升起。資訊量的多少與事件發生概率的大小成反比。對於已發生的事件i,其所提供的資訊量為 其中底數通常為2,負號的...

資訊量 資訊熵 相對熵 交叉熵

一般使用交叉熵作為損失函式時,在模型的輸出層總會接乙個softmax函式,這是為什麼呢?交叉熵簡介 交叉熵是資訊理論中的乙個重要概念,主要用於度量兩個概率分布間的差異性,要理解交叉熵,需要先了解以下幾個概念。資訊量資訊奠基人夏農 shannon 認為 資訊是用來消除隨機不確定性的一種東西 也就是說衡...

對資訊量,熵,相對熵,交叉熵的理解

下面自己做個總結。假設x是乙個離散型隨機變數,其取值集合為c,概率分布函式p x pr x x x c,則定義事件x xi 的資訊量 為 上式有兩個含義 1 當事件發生前,表示該事件發生的不確定性 2 當事件發生後,標是該事件所提供的資訊量 資訊量的單位取決於對數所取的底,若以2為底,單位為位元,以...