h(y|x)表示在已知隨機變數x的條件下,隨機變數y的不確定性,h(y|x)定義為:
舉個例子: 有一堆西瓜,已知這堆西瓜的色澤,以及每種色澤對應好瓜和壞瓜的個數,如下所示,設x表示色澤,y表示好瓜或者壞瓜。
則:這個例子就是計算條件熵的乙個過程,現在證明條件熵公式:
有很多書上的條件熵是這麼定義的,如果繼續化簡就可以得到我們上面定義的條件熵,接著化簡:
得證!比如上述西瓜的例中,當不知道色澤的時候,好瓜與壞瓜的不確定度為:
當知道色澤之後,好瓜與壞瓜的不確定度為:
那麼知道色澤之後,好瓜與壞瓜的不確定度減少了:
假設有這樣乙個樣本集,p為它的真實分布,q為它的估計分布。如果按照真實分布p來度量識別乙個樣本所需要的編碼長度的期望為:(如果對編碼長度不了解的,請看:
如果使用估計的分布q來表示來自真實分布p的平均編碼長度,則:
因為我們編碼的樣本來自於真實的分布p,所以乘的是真實概率。在影象分類的時候,比如softmax分類器,在訓練的時候,我們已經給定影象的標籤,所以這個時候每幅的真實概率就是1,這個時候的損失函式就是:
怎麼理解呢?就是讓**的概率值越來越接近於1!(想多了解softmax,請參考
舉個知乎上的例子,有4個字母(a,b,c,d)的資料集中,真實分布p=(1/2, 1/2, 0, 0),即a和b出現的概率均為1/2,c和d出現的概率都為0,
真實分布的編碼長度(最優編碼長度)
也就是說,我們僅僅需要一位編碼就可以確定所要傳送的資料是什麼。那麼假如我們的估計分布如下:
那麼傳送資料的平均編碼長度為:
即為了確定所傳送的資料,平均需要長度2編碼,才可以。交叉熵可以這麼理解:用估計的分布對來自真實分布的樣本進行編碼,所需要的平均長度。
根據gibbs' inequality可知交叉熵要大於等於真實分布的資訊熵(最優編碼)。gibbs' inequality如下:
對於樣本服從分布
當且僅當
由交叉熵可知,用估計的概率分布所需的編碼長度,比真實分布的編碼長,但是長多少呢?這個就需要另乙個度量,相對熵,也稱kl散度。
相對熵:用交叉熵減去真實分布的資訊熵,表示用估計分布計算的平均編碼長度比最短平均編碼長度長多少。因此有:
交叉熵=資訊熵+相對熵
由於對數函式時凸函式,則有:
因此,相對熵始終是大於等於0的。從上面的描述中也可以看得出,相對熵其實可以理解成兩種分布的距離。
兩個隨機變數x,y的互資訊,定義為:x,y的聯合分布p(x,y)與乘積分布p(x)p(y)的相對熵:
怎麼理解呢?也就是用乘積分布p(x)p(y)的交叉熵,減去聯合分布的資訊熵,就是互資訊,還不好理解,就可以看如下圖示:
相當於一種不嚴謹的說法就是:
或許另一種等價的定義好理解:
其實兩種定義是等價的:
小時候挺菜 閱讀(
...)
編輯收藏
通過示例總結條件熵 交叉熵 相對熵 互資訊
h y x 表示在已知隨機變數x的條件下,隨機變數y的不確定性,h y x 定義為 舉個例子 有一堆西瓜,已知這堆西瓜的色澤,以及每種色澤對應好瓜和壞瓜的個數,如下所示,設x表示色澤,y表示好瓜或者壞瓜。則 這個例子就是計算條件熵的乙個過程,現在證明條件熵公式 有很多書上的條件熵是這麼定義的,如果繼...
資訊熵,交叉熵和相對熵
怎樣去量化資訊?一些大牛對某些問題的見解,我們會說乾貨滿滿,就代表這個見解具有很大的資訊。對於一些不太確定的事,比如一場足球比賽的結果,會有勝平負三種情況,有不確定的情況,但如果某人有直接的內幕訊息,說這場主隊穩輸,因為 這樣的乙個資訊就具有很大的資訊量了,因為不確定的事情變得十分確定。如果有人告訴...
熵 相對熵 交叉熵等理解
假設我們聽到了兩件事,分別如下 事件a 巴西隊進入了2018世界盃決賽圈。事件b 中國隊進入了2018世界盃決賽圈。僅憑直覺來說,顯而易見事件b的資訊量比事件a的資訊量要大。究其原因,是因為事件a發生的概率很大,事件b發生的概率很小。所以當越不可能的事件發生了,我們獲取到的資訊量就越大。越可能發生的...