下面自己做個總結。
假設x是乙個離散型隨機變數,其取值集合為c,概率分布函式p(x)=pr(x=x),x∈c,則定義事件x=xi
的資訊量
為:
上式有兩個含義:
1、當事件發生前,表示該事件發生的不確定性;
2、當事件發生後,標是該事件所提供的資訊量
資訊量的單位取決於對數所取的底,若以2為底,單位為位元,以e為底,單位為奈特,以10為底,單位為哈特。
熵用來表示
所有資訊量的期望,即:
熵是從整個集合的統計特性來考慮的,它從平均意義上來表徵信源的總體特徵。
資訊熵具有以下兩種物理含義:
1、表示信源輸出前信源的平均不確定性
2、表示信源輸出後,每個符號所攜帶的平均資訊量
相對熵又稱
kl散度,如果我們對於同乙個隨機變數 x 有兩個單獨的概率分布 p(x) 和 q(x),我們可以使用 kl 散度(kullback-leibler (kl) divergence)來衡量這兩個分布的差異。
在機器學習中,p往往用來表示樣本的真實分布,q用來表示模型所**的分布。
kl散度
交叉熵
對式kl散度計算公式變形可以得到
等式的前一部分恰巧就是p的熵,等式的後一部分,就是交叉熵:
資訊量 資訊熵 交叉熵 相對熵
1 資訊量 陳羽凡吸毒?工作室不是剛闢謠了嗎?哇!資訊量好大!在生活中,極少發生的事情最容易引起吃瓜群眾的關注。而經常發生的事情則不會引起注意,比如吃瓜群眾從來不會去關係明天太陽會不會東邊公升起。資訊量的多少與事件發生概率的大小成反比。對於已發生的事件i,其所提供的資訊量為 其中底數通常為2,負號的...
資訊量 資訊熵 相對熵 交叉熵
一般使用交叉熵作為損失函式時,在模型的輸出層總會接乙個softmax函式,這是為什麼呢?交叉熵簡介 交叉熵是資訊理論中的乙個重要概念,主要用於度量兩個概率分布間的差異性,要理解交叉熵,需要先了解以下幾個概念。資訊量資訊奠基人夏農 shannon 認為 資訊是用來消除隨機不確定性的一種東西 也就是說衡...
機器學習之資訊量,熵,相對熵,交叉熵概念辨析
可能性越小的事件其資訊量越大,極端情況下,確定事件的資訊量為0。事件 a aa 的資訊量為 ia log p a i a logp a ia l ogp a p a p a p a 為事件 a aa 發生的概率。熵就是乙個隨機變數x所有事件的資訊量的期望 例如隨機變數x xx表示明天的天氣,所有事件...