交叉熵解讀

2022-02-06 14:03:16 字數 1351 閱讀 1645

參考:

1、隨機現象:並不總是出現相同結果的現象稱為隨機現象。

2、隨機變數:隨機現象各種結果的變數(一切可能的樣本)稱為隨機變數。

3、資訊量:概率越小的事件,資訊量越大。

例如:事件一:巴西進世界盃

事件二:中國進世界盃

由於中國進世界盃的概率很小,所以事件二帶來的資訊量更大一些,給人留下的印象更深刻(驚訝)一些。

4、 用i表示資訊量,p表示概率,兩者之間的關係如下:                                            

ip資訊量計算公式:

5、熵:所有資訊量的期望值。例如,開啟計算機有三種可能,具體如下表:

計算熵的公式:

-log(p(xi))為每個資訊量,-p(xi)logp(xi)為每個資訊量佔總事件的比例。假設一共有n個事件,即n個p(xi)log(p(xi))相加,前面加負號,使最後的值為正。

上面的例子,結合熵的定義,計算過程如下:

如果是二項分布,可以簡化熵的計算。

6、相對熵(kl散度):描述同乙個隨機變數的兩個獨立的概率分布的差異。

如果有乙個模型來表示乙個樣本,這個模型為p(x)。同時有另外乙個模型q(x)也可以表示這個樣本。這兩個模型也稱為兩個相互獨立的概率分布p(x)和q(x),相對熵(kl散度)就是描述這兩個分布(模型)的差異。

kl散度的計算公式:

n為樣本所有可能的結果,dkl的值越小,p分布(模型)和q分布(模型)越接近。

7、交叉熵

對上面的式子變形:

等式的前一部分,恰好是p的熵的相反數,後一部分便是交叉熵。

在機器學習中需要評估label和precdicts的差距,使用kl散度恰好。kl散度前一部分是-h(p(x))不變,因此在優化過程中,只需關注kl散度的後一部分(交叉熵)即可,交叉熵越小,說明**的模型和真實樣本越匹配。

熵與交叉熵

針對引文中的問題 如果乙個字出現的頻率為yi 則該字所使用的編碼bit數為lo g1yi 如果整段文字的概率分布都已知,那我們可以得出編碼乙個字所需的最優bit數 h y iyil og1y i 其中h y 就是熵 如果我們已知的是乙個錯誤的分布,並且使用該分布確定的編碼bit數,稱為交叉熵h y ...

cross entropy交叉熵 相對熵

1.熵用來表示所有資訊量的期望。2.相對熵又稱kl散度,如果我們對於同乙個隨機變數 x 有兩個單獨的概率分布 p x 和 q x 我們可以使用 kl 散度 kullback leibler kl divergence 來衡量這兩個分布的差異。3.交叉熵 相對熵 p的熵 交叉熵。在機器學習中,我們需要...

資訊熵,交叉熵和相對熵

怎樣去量化資訊?一些大牛對某些問題的見解,我們會說乾貨滿滿,就代表這個見解具有很大的資訊。對於一些不太確定的事,比如一場足球比賽的結果,會有勝平負三種情況,有不確定的情況,但如果某人有直接的內幕訊息,說這場主隊穩輸,因為 這樣的乙個資訊就具有很大的資訊量了,因為不確定的事情變得十分確定。如果有人告訴...