乙個資訊的資訊量取決於該訊息對應事件發生概率的大小。或者說資訊量是用來消除****隨機不確定性的東西,衡量資訊量的大小在於該資訊消除不確定性的程度
例:對於事件a,如果p(a
)=
1p\left ( a \right ) = 1
p(a)=1
,資訊(a事件發生了)沒有消除任何不確定性,則該資訊量為0
如果事件b的發生概率很小,則資訊(b事件發生了)消除了很大的不確定性,該資訊量也很大
假設x
xx是乙個離散型隨機變數,其取值的集合為ϕ
\phi
ϕ,其概率分布函式p(x
)=pr
(x=x
),x⊆
ϕp(x) = pr(x=x),x\subseteq\phi
p(x)=p
r(x=
x),x
⊆ϕ, 則定義事件x=x
0x=x_
x=x0
的資訊量為i(x
0)=−
log(
p(x0
))
i\left ( x_ \right ) = -log\left ( p\left ( x_ \right ) \right )
i(x0)
=−lo
g(p(
x0)
)對於乙個事件,有n種可能性,每一種可能性對應的概率p(x
i)
p(x_)
p(xi)
,計算每一種可能性對應的資訊量
事件概率p
資訊量a
0.70.36
b0.2
1.61
c0.1
2.30
熵可表示為所有資訊量的期望,為h(x
)=∑i
np(x
i)i(
xi)=
−∑in
p(xi
)log
(p(x
i)
)h\left ( x \right ) =\sum_^p\left ( x_ \right )i\left ( x_ \right ) =-\sum_^p(x_)log(p(x_))
h(x)=i
∑np
(xi
)i(x
i)=
−i∑n
p(x
i)l
og(p
(xi
))相對熵又稱kl散度,如果我們對於同乙個隨機變數 x 有兩個單獨的概率分布 p(x) 和 q(x),我們可以使用 kl 散度(kullback-leibler (kl) divergence)來衡量這兩個分布的差異
計算公式為:dkl
(p∣∣
q)=∑
i=1n
p(xi
)log
(p(x
i)q(
xi))
d_(p||q)=\sum_^n p(x_)log( \frac)})} )
dkl(p
∣∣q)
=i=1
∑np
(xi
)log
(q(x
i)p
(xi
))dkl
d_dk
l的值越小,表示q
qq分別和p
pp分布越接近
在機器學習中,認為p
pp為現實生活中真實的分布,可以和現實資料完美擬合,q
qq分別為模型擬合的分布,相對熵可以表示模型分布和現實分布的差距
分解kl散度公式有dkl
(p∣∣
q)=∑
i=1n
p(xi
)log
(p(x
i))−
∑i=1
np(x
i)lo
g(q(
xi))
d_(p||q)=\sum_^ p(x_)log(p(x_))-\sum_^p(x_)log(q(x_))
dkl(p
∣∣q)
=i=1
∑np
(xi
)log
(p(x
i))
−i=1
∑np
(xi
)log
(q(x
i))
= −h
(p(x
))+[
−∑i=
1np(
xi)l
og(q
(xi)
)]
=-h(p(x))+[-\sum_^p(x_)log(q(x_))]
=−h(p(
x))+
[−i=
1∑n
p(xi
)lo
g(q(
xi)
)]等式的前一部分恰巧就是p的熵,等式的後一部分,就是交叉熵:
h (p
,q)=
−h(p
(x))
+[−∑
i=1n
p(xi
)log
(q(x
i))]
h(p,q) = -h(p(x))+[-\sum_^p(x_)log(q(x_))]
h(p,q)
=−h(
p(x)
)+[−
i=1∑
np(
xi)
log(
q(xi
))]
參考:
交叉熵損失函式原理
原博主講的很清楚,此處我只修改了幾個公式 應該是筆誤造成的 交叉熵損失函式 crossentropy loss 是分類問題中經常使用的一種損失函式,特別是在神經網路做分類問題時,也經常使用交叉熵作為損失函式,交叉熵涉及到計算每個類別的概率,所以交叉熵幾乎每次都和sigmoid 或softmax 函式...
交叉熵代價函式
交叉熵代價函式 cross entropy cost function 是用來衡量人工神經網路 ann 的 值與實際值的一種方式。與二次代價函式相比,它能更有效地促進ann的訓練。在介紹交叉熵代價函式之前,本文先簡要介紹二次代價函式,以及其存在的不足。ann的設計目的之一是為了使機器可以像人一樣學習...
交叉熵損失函式
公式 分類問題中,我們通常使用 交叉熵來做損失函式,在網路的後面 接上一層softmax 將數值 score 轉換成概率。如果是二分類問題,我們通常使用sigmod函式 2.為什麼使用交叉熵損失函式?如果分類問題使用 mse 均方誤差 的方式,在輸出概率接近0 或者 接近1的時候,偏導數非常的小,學...