交叉熵解讀

參考：

1、隨機現象：並不總是出現相同結果的現象稱為隨機現象。

2、隨機變數：隨機現象各種結果的變數（一切可能的樣本）稱為隨機變數。

3、資訊量：概率越小的事件，資訊量越大。

例如：事件一：巴西進世界盃

事件二：中國進世界盃

由於中國進世界盃的概率很小，所以事件二帶來的資訊量更大一些，給人留下的印象更深刻（驚訝）一些。

4、用i表示資訊量，p表示概率，兩者之間的關係如下：

ip資訊量計算公式：

5、熵：所有資訊量的期望值。例如，開啟計算機有三種可能，具體如下表：

計算熵的公式：

-log(p(xi))為每個資訊量，-p(xi)logp(xi）為每個資訊量佔總事件的比例。假設一共有n個事件，即n個p(xi)log(p(xi))相加，前面加負號，使最後的值為正。

上面的例子，結合熵的定義，計算過程如下：

如果是二項分布，可以簡化熵的計算。

6、相對熵（kl散度）：描述同乙個隨機變數的兩個獨立的概率分布的差異。

如果有乙個模型來表示乙個樣本，這個模型為p(x)。同時有另外乙個模型q（x）也可以表示這個樣本。這兩個模型也稱為兩個相互獨立的概率分布p(x)和q(x)，相對熵（kl散度）就是描述這兩個分布（模型）的差異。

kl散度的計算公式：

n為樣本所有可能的結果，dkl的值越小，p分布（模型）和q分布（模型）越接近。

7、交叉熵

對上面的式子變形：

等式的前一部分，恰好是p的熵的相反數，後一部分便是交叉熵。

在機器學習中需要評估label和precdicts的差距，使用kl散度恰好。kl散度前一部分是-h(p(x))不變，因此在優化過程中，只需關注kl散度的後一部分（交叉熵）即可，交叉熵越小，說明**的模型和真實樣本越匹配。