首先說說概率論的期望值
期望:表示隨機變數的均值
如果變數滿足均勻分布,那麼期望=均值(比如拋硬幣問題)
然後理解什麼是熵。
熵:表示所有資訊量的期望,資訊量: (log的底數是可以改變的,預設底數為2)
我們說,概率越小,表示資訊量越大(比如中國隊進入世界盃決賽,這就是小概率事件,則資訊量大,熵也大)
熵的定義:
那我們對資訊量求期望,則
然後理解什麼是相對熵(即kl散度)
kl散度:同一隨機變數,有兩個單獨的概率分布 、 ,我們可以用kl散度來衡量這兩個分布之間的差異
從公式可看出,kl散度值越小,表示p和q的分布越接近(可以把p、q分別看做標籤和**集)
對於式(2)
由式(1)
只與p值(概率值)有關,這是乙個定值,能夠影響 的大小的是
這個就是交叉熵的表示式
交叉熵:
由此可以看出,降低交叉熵,可以保證p、q的值越來越接近,即標籤與**集越來越接近,則設計的演算法模型越好。
完畢。
如何理解交叉熵恆大於或等於0?
看了很多部落格,我發現它們都基本上是以乙個定義的形式,直接告訴我們 或者不提及 交叉熵它是恆大於等於0的,沒有解釋為什麼。如果想要了解什麼是熵及變形總結,可以參考部落格 機器學習筆記十 各種熵總結,裡面講的非常詳細。這裡要說的是交叉熵為什麼恆大於等於0 這裡我們首先要知道,交叉熵通常被用來解決分類問...
對機器學習中資訊熵的理解 交叉熵損失函式
剛開始看id3 c4.5 cart等演算法時,不怎麼理解資訊熵,後來看了幾篇部落格時才發現可以拿來解釋我們常用的二分類損失函式。參考 資訊熵 l1 l2正則化與交叉熵 相對熵 機器學習 四 從資訊理論交叉熵的角度看softmax 邏輯回歸損失 資訊熵是拿來消除系統不確定性的,指代的是資訊的含量 資訊...
熵 相對熵 交叉熵等理解
假設我們聽到了兩件事,分別如下 事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說,顯而易見事件b的資訊量比事件a的資訊量要大。究其原因,是因為事件a發生的概率很大,事件b發生的概率很小。所以當越不可能的事件發生了,我們獲取到的資訊量就越大。越可能發生的...