1、資訊量
「陳羽凡吸毒?!工作室不是剛闢謠了嗎?哇!資訊量好大!」
在生活中,極少發生的事情最容易引起吃瓜群眾的關注。而經常發生的事情則不會引起注意,比如吃瓜群眾從來不會去關係明天太陽會不會東邊公升起。
資訊量的多少與事件發生概率的大小成反比。
對於已發生的事件i,其所提供的資訊量為:
其中底數通常為2,負號的目的是為了保證資訊量不為負。
事件i發生的概率與對應資訊量的關係如下所示:
2、資訊熵(夏農熵)
所有可能發生事件所帶來的資訊量的期望
3、交叉熵
如果假設分布概率與真實分布概率一致,那麼交叉熵 = 資訊熵。
就是用後驗分布 q 來近似先驗分布 p 的時候造成的資訊損失。再直白一點,就是衡量不同策略之間的差異性
相對熵用來衡量q擬合p的過程中產生的資訊損耗,損耗越少,q擬合p也就越好。
**
資訊量 資訊熵 相對熵 交叉熵
一般使用交叉熵作為損失函式時,在模型的輸出層總會接乙個softmax函式,這是為什麼呢?交叉熵簡介 交叉熵是資訊理論中的乙個重要概念,主要用於度量兩個概率分布間的差異性,要理解交叉熵,需要先了解以下幾個概念。資訊量資訊奠基人夏農 shannon 認為 資訊是用來消除隨機不確定性的一種東西 也就是說衡...
對資訊量,熵,相對熵,交叉熵的理解
下面自己做個總結。假設x是乙個離散型隨機變數,其取值集合為c,概率分布函式p x pr x x x c,則定義事件x xi 的資訊量 為 上式有兩個含義 1 當事件發生前,表示該事件發生的不確定性 2 當事件發生後,標是該事件所提供的資訊量 資訊量的單位取決於對數所取的底,若以2為底,單位為位元,以...
機器學習之資訊量,熵,相對熵,交叉熵概念辨析
可能性越小的事件其資訊量越大,極端情況下,確定事件的資訊量為0。事件 a aa 的資訊量為 ia log p a i a logp a ia l ogp a p a p a p a 為事件 a aa 發生的概率。熵就是乙個隨機變數x所有事件的資訊量的期望 例如隨機變數x xx表示明天的天氣,所有事件...