交叉熵函式原理

2021-10-25 11:32:23 字數 2820 閱讀 8066

乙個資訊的資訊量取決於該訊息對應事件發生概率的大小。或者說資訊量是用來消除****隨機不確定性的東西,衡量資訊量的大小在於該資訊消除不確定性的程度

例:對於事件a,如果p(a

)=

1p\left ( a \right ) = 1

p(a)=1

,資訊(a事件發生了)沒有消除任何不確定性,則該資訊量為0

如果事件b的發生概率很小,則資訊(b事件發生了)消除了很大的不確定性,該資訊量也很大

假設x

xx是乙個離散型隨機變數,其取值的集合為ϕ

\phi

ϕ,其概率分布函式p(x

)=pr

(x=x

),x⊆

ϕp(x) = pr(x=x),x\subseteq\phi

p(x)=p

r(x=

x),x

⊆ϕ, 則定義事件x=x

0x=x_

x=x0

​的資訊量為i(x

0)=−

log(

p(x0

))

i\left ( x_ \right ) = -log\left ( p\left ( x_ \right ) \right )

i(x0​)

=−lo

g(p(

x0​)

)對於乙個事件,有n種可能性,每一種可能性對應的概率p(x

i)

p(x_)

p(xi​)

,計算每一種可能性對應的資訊量

事件概率p

資訊量a

0.70.36

b0.2

1.61

c0.1

2.30

熵可表示為所有資訊量的期望,為h(x

)=∑i

np(x

i)i(

xi)=

−∑in

p(xi

)log

(p(x

i)

)h\left ( x \right ) =\sum_^p\left ( x_ \right )i\left ( x_ \right ) =-\sum_^p(x_)log(p(x_))

h(x)=i

∑n​p

(xi​

)i(x

i​)=

−i∑n

​p(x

i​)l

og(p

(xi​

))相對熵又稱kl散度,如果我們對於同乙個隨機變數 x 有兩個單獨的概率分布 p(x) 和 q(x),我們可以使用 kl 散度(kullback-leibler (kl) divergence)來衡量這兩個分布的差異

計算公式為:dkl

(p∣∣

q)=∑

i=1n

p(xi

)log

(p(x

i)q(

xi))

d_(p||q)=\sum_^n p(x_)log( \frac)})} )

dkl​(p

∣∣q)

=i=1

∑n​p

(xi​

)log

(q(x

i​)p

(xi​

)​)dkl

d_dk

l​的值越小,表示q

qq分別和p

pp分布越接近

在機器學習中,認為p

pp為現實生活中真實的分布,可以和現實資料完美擬合,q

qq分別為模型擬合的分布,相對熵可以表示模型分布和現實分布的差距

分解kl散度公式有dkl

(p∣∣

q)=∑

i=1n

p(xi

)log

(p(x

i))−

∑i=1

np(x

i)lo

g(q(

xi))

d_(p||q)=\sum_^ p(x_)log(p(x_))-\sum_^p(x_)log(q(x_))

dkl​(p

∣∣q)

=i=1

∑n​p

(xi​

)log

(p(x

i​))

−i=1

∑n​p

(xi​

)log

(q(x

i​))

= −h

(p(x

))+[

−∑i=

1np(

xi)l

og(q

(xi)

)]

=-h(p(x))+[-\sum_^p(x_)log(q(x_))]

=−h(p(

x))+

[−i=

1∑n​

p(xi

​)lo

g(q(

xi​)

)]等式的前一部分恰巧就是p的熵,等式的後一部分,就是交叉熵:

h (p

,q)=

−h(p

(x))

+[−∑

i=1n

p(xi

)log

(q(x

i))]

h(p,q) = -h(p(x))+[-\sum_^p(x_)log(q(x_))]

h(p,q)

=−h(

p(x)

)+[−

i=1∑

n​p(

xi​)

log(

q(xi

​))]

參考:

交叉熵損失函式原理

原博主講的很清楚,此處我只修改了幾個公式 應該是筆誤造成的 交叉熵損失函式 crossentropy loss 是分類問題中經常使用的一種損失函式,特別是在神經網路做分類問題時,也經常使用交叉熵作為損失函式,交叉熵涉及到計算每個類別的概率,所以交叉熵幾乎每次都和sigmoid 或softmax 函式...

交叉熵代價函式

交叉熵代價函式 cross entropy cost function 是用來衡量人工神經網路 ann 的 值與實際值的一種方式。與二次代價函式相比,它能更有效地促進ann的訓練。在介紹交叉熵代價函式之前,本文先簡要介紹二次代價函式,以及其存在的不足。ann的設計目的之一是為了使機器可以像人一樣學習...

交叉熵損失函式

公式 分類問題中,我們通常使用 交叉熵來做損失函式,在網路的後面 接上一層softmax 將數值 score 轉換成概率。如果是二分類問題,我們通常使用sigmod函式 2.為什麼使用交叉熵損失函式?如果分類問題使用 mse 均方誤差 的方式,在輸出概率接近0 或者 接近1的時候,偏導數非常的小,學...