熵,條件熵,互資訊,交叉熵

2021-09-26 07:53:58 字數 2321 閱讀 6886

定義: 用來度量資訊的不確定程度。

解釋: 熵越大,資訊量越大。不確定程度越低,熵越小,比如「明天太陽從東方公升起」這句話的熵為0,因為這個句話沒有帶有任何資訊,它描述的是乙個確定無疑的事情。

例子:假設有隨機變數x,用來表達明天天氣的情況。x可能出現三種狀態 1) 晴天2) 雨天 3)陰天 每種狀態的出現概率均為p(i) = 1/3,那麼根據熵的公式:

可以計算得到

h(x) = - 1/3 * log(1/3) - 1/3 * log(1/3) + 1/3 * log(1/3) = log3 =0.47712

如果這三種狀態出現的概率為(0.1, 0.1, 0.8), 那麼

h(x) = -0.1 * log(0.1) *2 - 0.8 * log(0.8) = 0.277528

可以發現前面一種分布x的不確定程度很高,每種狀態都很有可能。後面一種分布,x的不確定程度較低,第三種狀態有很大概率會出現。 所以對應前面一種分布,熵值很高,後面一種分布,熵值較低。

定義:在乙個條件下,隨機變數的不確定性。

舉例說明:

假設隨機變數x表示明天的天氣情況,隨機變數y表示今天的濕度,y 有兩種狀態 1) 潮濕 2) 乾燥。

假設基於以往的18個樣本, x 的三種狀態,概率均為 0.33, y的兩種狀態,概率為0.5

條件概率可以通過樸素貝葉斯公式進行計算:

p(x=0|y=0) =p(x=0,y=0)/p(y=0) = (1/18)/(9/18) = 1/9

p(x=1|y=0)= p(x=1,y=0)/p(y=0) = (5/18)/(9/18) = 5/9

p(x=2|y=0) =p(x=2,y=0)/p(y=0) = (3/18)/(9/18) = 3/9

p(x=0|y=1) =p(x=0,y=0)/p(y=1) = (1/18)/(9/18) = 1/9

p(x=1|y=1)= p(x=1,y=0)/p(y=1) = (5/18)/(9/18) = 5/9

p(x=2|y=1) =p(x=2,y=0)/p(y=1) = (3/18)/(9/18) = 3/9

條件熵的公式:

根據這個公式:

h(x|y) = (1/18)*log(1/9) + (5/18)*log(5/9) + (3/18)*log(3/9) + (1/18)*log(1/9) + (5/18)*log(5/9) + (3/18)*log(3/9) = 0.406885

資訊增益 = 熵 – 條件熵

資訊增益的定義:在乙個條件下,資訊不確定性減少的程度

所以y條件產生的資訊增益為 0.47712 - 0.406885

資訊增益的應用: 我們在利用進行分類的時候,常常選用資訊增益更大的特徵,資訊增益大的特徵對分類來說更加重要。決策樹就是通過資訊增益來構造的,資訊增益大的特徵往往被構造成底層的節點。

理解:確定隨機變數x的值後,另乙個隨機變數y不確定性的削弱程度,因而互資訊取值最小為0,意味著給定乙個隨機變數對確定一另乙個隨機變數沒有關係,最大取值為隨機變數的熵,意味著給定乙個隨機變數,能完全消除另乙個隨機變數的不確定性。這個概念和條件熵相對。

公式:

假設x,y完全無關,h(x) = h(x|y) , 那麼i(x;y) = 0

假設x,y完全相關,h(x|y) =0, 那麼i(x;y) = h(x)

條件熵越大,互資訊越小,條件熵越小,互資訊越大。

互資訊和資訊增益實際是同乙個值。

定義:資訊理論中的重要概念,主要用於度量兩個概率分布間的差異性資訊。

理解: 在進行優化的過程中,往往將交叉熵又命名為loss變數,優化的目標即是最小化loss。

假如x為一組已知的輸入特徵值,y為一組已知的輸出分類。優化的目標是為了找到乙個對映模型f, 使得**值y_ = f(x), 與真值y最相似。但現實世界的y和y_的分布肯定不是完全一致的。

所以:y 服從 p分布(即真實分布)

y_ 服從 q分布

交叉熵cross_entropy 即為描述p,q兩個分布差異性的指標。

交叉熵公式:

通過示例總結條件熵 交叉熵 相對熵 互資訊

h y x 表示在已知隨機變數x的條件下,隨機變數y的不確定性,h y x 定義為 舉個例子 有一堆西瓜,已知這堆西瓜的色澤,以及每種色澤對應好瓜和壞瓜的個數,如下所示,設x表示色澤,y表示好瓜或者壞瓜。則 這個例子就是計算條件熵的乙個過程,現在證明條件熵公式 有很多書上的條件熵是這麼定義的,如果繼...

通過示例總結條件熵 交叉熵 相對熵 互資訊

h y x 表示在已知隨機變數x的條件下,隨機變數y的不確定性,h y x 定義為 舉個例子 有一堆西瓜,已知這堆西瓜的色澤,以及每種色澤對應好瓜和壞瓜的個數,如下所示,設x表示色澤,y表示好瓜或者壞瓜。則 這個例子就是計算條件熵的乙個過程,現在證明條件熵公式 有很多書上的條件熵是這麼定義的,如果繼...

熵和互資訊

讀文獻想要算通道容量的時候,遇到了需要用到熵和互資訊相關的推導,所以找紀佬要來資訊理論的課件拿來看了看,在這裡也是乙個記錄。先搬上來兩個定義。熵的定義 互資訊量的定義 好的,掌握到這裡基本上就ok了,但是在資訊理論研究中我們還是要經常用一點條件互資訊的東西,那麼可以用這個venn圖來看。圖轉侵刪 這...