熵與條件熵

2021-09-25 13:35:24 字數 735 閱讀 2826

熵是表示隨機變數不確定性的度量,設x是乙個取有限個值的離散隨機變數,其概率分布為

則隨機變數x的熵定義為

若乙個隨機變數只有兩個值,那麼當x的分別為為p(x1)=p(x2)=0.5的時候,熵最大,變數也最不確定。

條件熵設有隨機變數(x,y),其聯合概率分布為

這裡注意,這個條件熵,不是指的

舉個例子:

一顆小花開花或不開花是乙個隨機事件,用隨機變數x表示。現有一些樣本x=

可以估計p(x=開)=9/14  p(x=不)=5/14

那麼x的熵為-(9/14)log(9/14  ) -(5/14)log(5/14  )

現在還有乙個變數時y,是乙個天氣的變數(晴 陰 雨),且p(晴)=5/14  p(陰)=4/14  p(雨)=5/14,

並且我們有在天氣的條件下,小花開花的情況(也就是按天氣這個條件,對小花的開花情況分類):

我們也就有了在y情況下,x的概率分布。於是,我們就有了h(y|x)=

其實條件熵意思是按乙個新的變數的每個值對原變數進行分類,比如上面這個題把開 不 按晴陰雨分成了三類,然後在每乙個小類裡面,都計算乙個小熵,然後每乙個小熵乘以各個類別的概率,然後求和。我們用另乙個變數對原變數分類後,原變數的不確定性就會減小了,因為新增了y的資訊,可以感受一下。不確定程度減少了多少就是資訊的增益。

資訊熵 條件熵

1資訊熵以及引出條件熵 我們首先知道資訊熵是考慮該隨機變數的所有可能取值,即所有可能發生事件所帶來的資訊量的期望。公式如下 我們的條件熵的定義是 定義為x給定條件下,y的條件概率分布的熵對x的數學期望 這個還是比較抽象,下面我們解釋一下 設有隨機變數 x,y 其聯合概率分布為 條件熵h y x 表示...

熵,條件熵,互資訊,交叉熵

定義 用來度量資訊的不確定程度。解釋 熵越大,資訊量越大。不確定程度越低,熵越小,比如 明天太陽從東方公升起 這句話的熵為0,因為這個句話沒有帶有任何資訊,它描述的是乙個確定無疑的事情。例子 假設有隨機變數x,用來表達明天天氣的情況。x可能出現三種狀態 1 晴天2 雨天 3 陰天 每種狀態的出現概率...

熵與交叉熵

針對引文中的問題 如果乙個字出現的頻率為yi 則該字所使用的編碼bit數為lo g1yi 如果整段文字的概率分布都已知,那我們可以得出編碼乙個字所需的最優bit數 h y iyil og1y i 其中h y 就是熵 如果我們已知的是乙個錯誤的分布,並且使用該分布確定的編碼bit數,稱為交叉熵h y ...