參考:
1、隨機現象:並不總是出現相同結果的現象稱為隨機現象。
2、隨機變數:隨機現象各種結果的變數(一切可能的樣本)稱為隨機變數。
3、資訊量:概率越小的事件,資訊量越大。
例如:事件一:巴西進世界盃
事件二:中國進世界盃
由於中國進世界盃的概率很小,所以事件二帶來的資訊量更大一些,給人留下的印象更深刻(驚訝)一些。
4、 用i表示資訊量,p表示概率,兩者之間的關係如下:
ip資訊量計算公式:
5、熵:所有資訊量的期望值。例如,開啟計算機有三種可能,具體如下表:
計算熵的公式:
-log(p(xi))為每個資訊量,-p(xi)logp(xi)為每個資訊量佔總事件的比例。假設一共有n個事件,即n個p(xi)log(p(xi))相加,前面加負號,使最後的值為正。
上面的例子,結合熵的定義,計算過程如下:
如果是二項分布,可以簡化熵的計算。
6、相對熵(kl散度):描述同乙個隨機變數的兩個獨立的概率分布的差異。
如果有乙個模型來表示乙個樣本,這個模型為p(x)。同時有另外乙個模型q(x)也可以表示這個樣本。這兩個模型也稱為兩個相互獨立的概率分布p(x)和q(x),相對熵(kl散度)就是描述這兩個分布(模型)的差異。
kl散度的計算公式:
n為樣本所有可能的結果,dkl的值越小,p分布(模型)和q分布(模型)越接近。
7、交叉熵
對上面的式子變形:
等式的前一部分,恰好是p的熵的相反數,後一部分便是交叉熵。
在機器學習中需要評估label和precdicts的差距,使用kl散度恰好。kl散度前一部分是-h(p(x))不變,因此在優化過程中,只需關注kl散度的後一部分(交叉熵)即可,交叉熵越小,說明**的模型和真實樣本越匹配。
熵與交叉熵
針對引文中的問題 如果乙個字出現的頻率為yi 則該字所使用的編碼bit數為lo g1yi 如果整段文字的概率分布都已知,那我們可以得出編碼乙個字所需的最優bit數 h y iyil og1y i 其中h y 就是熵 如果我們已知的是乙個錯誤的分布,並且使用該分布確定的編碼bit數,稱為交叉熵h y ...
cross entropy交叉熵 相對熵
1.熵用來表示所有資訊量的期望。2.相對熵又稱kl散度,如果我們對於同乙個隨機變數 x 有兩個單獨的概率分布 p x 和 q x 我們可以使用 kl 散度 kullback leibler kl divergence 來衡量這兩個分布的差異。3.交叉熵 相對熵 p的熵 交叉熵。在機器學習中,我們需要...
資訊熵,交叉熵和相對熵
怎樣去量化資訊?一些大牛對某些問題的見解,我們會說乾貨滿滿,就代表這個見解具有很大的資訊。對於一些不太確定的事,比如一場足球比賽的結果,會有勝平負三種情況,有不確定的情況,但如果某人有直接的內幕訊息,說這場主隊穩輸,因為 這樣的乙個資訊就具有很大的資訊量了,因為不確定的事情變得十分確定。如果有人告訴...