在資訊理論中可以根據夏農熵估計乙個字串中每個符號$s_$編碼所需的最小位數,前提是每個字元出現的概率$p_$是已知的.
舉個例子:
比如,apple這個單詞的夏農熵:
每個字元在字串中出現的概率:
pa
=pl=
pe=1
5=0.2
pl
=25=
0.4
資訊熵: h=
−3×0.2×l
og2(
0.2)
−0.4×l
og2(
0.4)
=1.92193
qi而不是真實概率pi
,則每個符號的編碼長度會增加,可以採用一種次優的編碼方案對同乙個字串進行計算編碼所需的平均最小位數.
例如,ascii對apple中的每乙個字元賦予的概率是相同的qi
=1256 h=−
3×0.2×lo
g2(1
256)
−0.4×l
og2(
1256)=
8
所以在ascii編碼對每個字元編碼為8位
在採用交叉熵構建損失函式時候,p為期望的輸出和概率分布,即實際的概率分布.q為模型計算得到的輸出.根據上面的例子:當pi
=qi 時,得到的熵最小.所以利用交叉熵來比較兩個分布的吻合情況,非常合適,交叉熵越小,模型的輸出就越接近真實的概率分布.
熵與交叉熵
針對引文中的問題 如果乙個字出現的頻率為yi 則該字所使用的編碼bit數為lo g1yi 如果整段文字的概率分布都已知,那我們可以得出編碼乙個字所需的最優bit數 h y iyil og1y i 其中h y 就是熵 如果我們已知的是乙個錯誤的分布,並且使用該分布確定的編碼bit數,稱為交叉熵h y ...
cross entropy交叉熵 相對熵
1.熵用來表示所有資訊量的期望。2.相對熵又稱kl散度,如果我們對於同乙個隨機變數 x 有兩個單獨的概率分布 p x 和 q x 我們可以使用 kl 散度 kullback leibler kl divergence 來衡量這兩個分布的差異。3.交叉熵 相對熵 p的熵 交叉熵。在機器學習中,我們需要...
資訊熵,交叉熵和相對熵
怎樣去量化資訊?一些大牛對某些問題的見解,我們會說乾貨滿滿,就代表這個見解具有很大的資訊。對於一些不太確定的事,比如一場足球比賽的結果,會有勝平負三種情況,有不確定的情況,但如果某人有直接的內幕訊息,說這場主隊穩輸,因為 這樣的乙個資訊就具有很大的資訊量了,因為不確定的事情變得十分確定。如果有人告訴...