i
(p)=
−log
b(p)
當b=2,熵的單位是bit;b=e,熵的單位是nat;b=10,熵的單位是hart p=
1,i(
p)=0
p→0,i(p
)→∞
p=1/
2,i(
p)=1
h(x)=ex
[i(x
)]=e
x[−l
ogb(
x)]
個人理解:x可以是連續或者離散,反正就是積分h(
p,q)
=ep[
−log
(q)]
=h(p
)+dk
l(p|
|q)
第二步驟的推導: ep
[−lo
g(q)
]=ep
[−lo
g(p)
+log
(p)−
log(
q)]=
ep[−
log(
p)]+
eplo
gpq=
h(p)
+dkl
(p||
q)如果p和q分布相同,那麼交叉熵為0,h(
p,q)
=h(p
) 不可交換 h(
p,q)
≠h(q
,p)
dkl(
p||q
)=ep
logp
q 對於0/1分類,加入label是p1
概率,而不是0/1交叉熵損失,那麼可以推導: ep
[−lo
g(q)
]=−p
0log
(q0)
−p1l
og(q
1)同樣可以推廣到多元分布:
邏輯回歸,可以很自然地通過極大似然估計來優化,推導如下
需要說明的是,注意,實驗樣本集合並不是二項實驗,因為每次xi
不同,所以對於每個樣本,有乙個自己的二項分布pi
. yi
∈ 每個樣本的似然函式是: pw
(yi|
xi)=
σw(x
)yi[
1−σw
(x)]
1−yi
注意,不能這樣展開 pw
(yi|
xi)=
yiσw
(x)+
(1−y
i)[1
−σw(
x)]=
yiσw
(x)+
(1−y
i)σw
(−x)
訓練樣本集合的似然函式是: l(
w)=l
og[∏
i[pw
(yi|
xi)]
]=∑i
log[
pw(y
i|xi
)]=∑
i[yi
logσ
w(xi
)+(1
−yi)
log[
σw(−
xi)]
極大似然估計: wm
l=ar
gmax
wl(w
)
資訊理論 學習筆記
克勞德 夏農 claude shannon 美國數學家 電子工程師和密碼學家,被譽為資訊理論的創始人。資訊理論是在資訊可以量度的基礎上,研究有效和可靠的傳遞資訊的科學,它涉及資訊量度 資訊特性 資訊傳輸速率 通道容量 干擾對資訊傳輸的影響等方面的知識。資訊量是對資訊的度量。多少資訊用資訊量來衡量,我...
資訊理論 複習筆記
典型序列 信源有p個編碼,每個編碼有乙個出現的概率 那麼對於這個信源發出的n長序列 一共有pn個n長序列 其中有一小部分,出現的概率較大,稱為典型序列 其他的序列,出現的概率特別小,稱為非典型序列 計算典型序列的概率 2 n h x p 2 n h x 表示,將序列出現的概率 作為典型序列 n 序列...
資訊理論基礎
所謂的資訊,就是以前不知道現在知道的事實,如果某件事以前就知道,當別人再告訴你時,你會忽略,這件事對你的認知沒有任何影響,這就不叫資訊,反之,如果某件事以前你不知道,有人告訴你了,你現在知道了,那麼對你而言,這件事就是資訊。讓我們更進一步,看一件事帶來的資訊量的大小如何來度量。顧名思義,資訊量就是度...