本文簡單介紹了資訊理論中的各種熵,包括自資訊、熵;聯合熵、條件熵、互資訊;kl散度、交叉熵。並在最後用資訊理論中的交叉熵推導了邏輯回歸,得到了和最大似然法相同的結果。
熵是資訊的關鍵度量,通常指一條資訊中需要傳輸或者儲存乙個訊號的平均位元數。熵衡量了**隨機變數的不確定度,不確定性越大熵越大。
針對隨機變數
x ,其資訊熵的定義如下:h(
x)=e
[log2(
x)]=
∑−p(
x)log2(p
(x))
資訊熵是信源編碼中,壓縮率的下限。當我們使用少於資訊熵的資訊量做編碼,那麼一定有資訊的損失。
聯合熵是一集變數之間不確定的衡量手段。h(
x,y)
=∑∑−
p(x,
y)log(p(
x,y)
) 條件熵描述變數y在變數x確定的情況下,變數y的熵還剩多少。h(
y|x)
=∑∑−
p(x,
y)log(p(
y|x)
) 聯合熵和條件熵的關係是:h(
x,y)
=h(x
)+h(
y|x)
=h(y
)+h(
x|y)
=h(y
,x)
自資訊表示概率空間中與單一事件或離散變數的值相關的資訊量的量度。i(
x)=−
log(p(
x))
平均的自資訊就是資訊熵。h(
x)=e
[log2(
x)]=
∑−p(
x)log2(p
(x))
兩個隨機變數的互資訊,是變數間相互依賴性的量度,不同於相關係數,互資訊不限於實值隨機變數,其更加一般。i(
x)其意義為,若我們想知道y包含多少x的資訊,在尚未得到 y之前,我們的不確定性是 h(x),得到y後,不確定性是h(x|y)。所以一旦得到y後,我們消除了 h(x)-h(x|y)的不確定量,這就是y對x的資訊量。
kl散度,又稱為相對熵(relative entropy)、資訊散度(information divergence)、資訊增益(information gain)。
kl散度是兩個概率分布p和q差別非對稱性的度量。kl散度用來度量基於q的編碼來編碼來自p的樣本平均所需的額外的位元數。典型情況下,p表示資料的真實分布,q表述資料的模型分布。dk
l(p|
|q)=
∑ip(
i)logp(i
)q(i
) 交叉熵衡量了在真實分布是p的情況的情況下,使用分布q去編碼資料,需要的平均位元。h(
p,q)
=ep[
−logq]
=h(p
)+dk
l(p|
q) h
(p,q
)=∑−
p(x)
log(q(
x))
交叉熵與邏輯回歸的關係如下:
邏輯回歸中:
資料的真實分布中:
因此,可以用交叉熵去衡量估計分布q與真實分布p的相似性,交叉熵越小那麼越相似。h(
p,q)
=∑−p
(x)logq(
x)=−
ylog(y
^)−(
1−y)
log(1−
y^)
因此,損失函式為,得到了和最大似然推導相同的結果:l(
w)=1
n∑n=
1nh(
pn,q
n)=1
n∑n=
1n[−
ylog(y
^)−(
1−y)
log(1−
y^)]
=1n∑
n=1n
log(1+
exp(−y
nwxn
))
熵與資訊理論
假設任何檔案都可以被壓縮到 n 個二進位制位 bit 那麼其最多可以表示 2n 個不同的壓縮結果。也即,如果存在 2n 1個檔案,根據鴿籠原理,必然至少有兩個檔案得到同一壓縮效果。這就意味著,這兩個檔案不可能都無損地還原。因此,可以得出乙個相對抽象的結論,並非所有檔案都可以被壓縮到 n 個bit 位...
TensorFlow 資訊理論 資訊熵2
tensorflow 資訊理論 資訊熵2 flyfish tensorflow 資訊理論 資訊熵1 熵是接收的每條訊息中包含的資訊的平均量,又被稱為資訊熵 信源熵 平均自資訊量 自資訊量已經知道它的意思,平均自資訊量就是加權平均 在資訊理論裡 熵,資訊熵 信源熵 平均自資訊量都是乙個意思 乙個系統的...
資訊理論 熵 值的種類與其應用
熵值 entropy 的定義歷史 1865年德國物理學家克勞修斯 熱力學 中提出 熵增原理,乙個系統的混亂度,實際發生過程中,總是系統的熵值趨於增大。1877年玻爾茲曼 統計物理學 證明 系統的巨集觀物理性質,可以認為是所有可能微觀狀態的等概率統計平均值。我們將熵看作是乙個系統 混亂程度 的度量,因...