資訊理論筆記

2021-08-03 17:44:04 字數 1643 閱讀 3341

i

(p)=

−log

b(p)

當b=2,熵的單位是bit;b=e,熵的單位是nat;b=10,熵的單位是hart p=

1,i(

p)=0

p→0,i(p

)→∞

p=1/

2,i(

p)=1

h(x)=ex

[i(x

)]=e

x[−l

ogb(

x)]

個人理解:x可以是連續或者離散,反正就是積分h(

p,q)

=ep[

−log

(q)]

=h(p

)+dk

l(p|

|q)

第二步驟的推導: ep

[−lo

g(q)

]=ep

[−lo

g(p)

+log

(p)−

log(

q)]=

ep[−

log(

p)]+

eplo

gpq=

h(p)

+dkl

(p||

q)如果p和q分布相同,那麼交叉熵為0,h(

p,q)

=h(p

) 不可交換 h(

p,q)

≠h(q

,p)

dkl(

p||q

)=ep

logp

q 對於0/1分類,加入label是p1

概率,而不是0/1交叉熵損失,那麼可以推導: ep

[−lo

g(q)

]=−p

0log

(q0)

−p1l

og(q

1)同樣可以推廣到多元分布:

邏輯回歸,可以很自然地通過極大似然估計來優化,推導如下

需要說明的是,注意,實驗樣本集合並不是二項實驗,因為每次xi

不同,所以對於每個樣本,有乙個自己的二項分布pi

. yi

∈ 每個樣本的似然函式是: pw

(yi|

xi)=

σw(x

)yi[

1−σw

(x)]

1−yi

注意,不能這樣展開 pw

(yi|

xi)=

yiσw

(x)+

(1−y

i)[1

−σw(

x)]=

yiσw

(x)+

(1−y

i)σw

(−x)

訓練樣本集合的似然函式是: l(

w)=l

og[∏

i[pw

(yi|

xi)]

]=∑i

log[

pw(y

i|xi

)]=∑

i[yi

logσ

w(xi

)+(1

−yi)

log[

σw(−

xi)]

極大似然估計: wm

l=ar

gmax

wl(w

)

資訊理論 學習筆記

克勞德 夏農 claude shannon 美國數學家 電子工程師和密碼學家,被譽為資訊理論的創始人。資訊理論是在資訊可以量度的基礎上,研究有效和可靠的傳遞資訊的科學,它涉及資訊量度 資訊特性 資訊傳輸速率 通道容量 干擾對資訊傳輸的影響等方面的知識。資訊量是對資訊的度量。多少資訊用資訊量來衡量,我...

資訊理論 複習筆記

典型序列 信源有p個編碼,每個編碼有乙個出現的概率 那麼對於這個信源發出的n長序列 一共有pn個n長序列 其中有一小部分,出現的概率較大,稱為典型序列 其他的序列,出現的概率特別小,稱為非典型序列 計算典型序列的概率 2 n h x p 2 n h x 表示,將序列出現的概率 作為典型序列 n 序列...

資訊理論基礎

所謂的資訊,就是以前不知道現在知道的事實,如果某件事以前就知道,當別人再告訴你時,你會忽略,這件事對你的認知沒有任何影響,這就不叫資訊,反之,如果某件事以前你不知道,有人告訴你了,你現在知道了,那麼對你而言,這件事就是資訊。讓我們更進一步,看一件事帶來的資訊量的大小如何來度量。顧名思義,資訊量就是度...