資訊熵 條件熵

2021-08-15 18:37:55 字數 1807 閱讀 2423

1資訊熵以及引出條件熵

我們首先知道資訊熵是考慮該隨機變數的所有可能取值,即所有可能發生事件所帶來的資訊量的期望。公式如下:

我們的條件熵的定義是:定義為x給定條件下,y的條件概率分布的熵對x的數學期望

這個還是比較抽象,下面我們解釋一下:

設有隨機變數(x,y),其聯合概率分布為 

條件熵h(y|x)表示在已知隨機變數x的條件下隨機變數y的不確定性。

隨機變數x給定的條件下隨機變數y的條件熵h(y|x)2公式

下面推導一下條件熵的公式:

注意,這個條件熵,不是指在給定某個數(某個變數為某個值)的情況下,另乙個變數的熵是多少,變數的不確定性是多少?而是期望!

因為條件熵中x也是乙個變數,意思是在乙個變數x的條件下(變數x的每個值都會取),另乙個變數y熵對x的期望。

這是最容易錯的!4例子

下面通過例子來解釋一下:

假如我們有上面資料:

設隨機變數y=

我們可以統計出,嫁的個數為6/12 = 1/2

不嫁的個數為6/12 = 1/2

那麼y的熵,根據熵的公式來算,可以得到h(y) =  -1/2log1/2 -1/2log1/2

為了引出條件熵,我們現在還有乙個變數x,代表長相是帥還是帥,當長相是不帥的時候,統計如下紅色所示:

可以得出,當已知不帥的條件下,滿足條件的只有4個資料了,這四個資料中,不嫁的個數為1個,佔1/4

嫁的個數為3個,佔3/4

那麼此時的h(y|x = 不帥) = -1/4log1/4-3/4log3/4

p(x = 不帥) = 4/12 = 1/3

同理我們可以得到:

當已知帥的條件下,滿足條件的有8個資料了,這八個資料中,不嫁的個數為5個,佔5/8

嫁的個數為3個,佔3/8

那麼此時的h(y|x = 帥) = -5/8log5/8-3/8log3/8

p(x = 帥) = 8/12 = 2/3

5計算結果

有了上面的鋪墊之後,我們終於可以計算我們的條件熵了,我們現在需要求:

h(y|x = 長相)

也就是說,我們想要求出當已知長相的條件下的條件熵。

根據公式我們可以知道,長相可以取帥與不帥倆種

條件熵是另乙個變數y熵對x(條件)的期望。

公式為:

h(y|x=長相) = p(x =帥)*h(y|x=帥)+p(x =不帥)*h(y|x=不帥)

然後將上面已經求得的答案帶入即可求出條件熵!

這裡比較容易錯誤就是忽略了x也是可以取多個值,然後對其求期望!!6總結

其實條件熵意思是按乙個新的變數的每個值對原變數進行分類,比如上面這個題把嫁與不嫁按帥,不帥分成了倆類。

然後在每乙個小類裡面,都計算乙個小熵,然後每乙個小熵乘以各個類別的概率,然後求和。

我們用另乙個變數對原變數分類後,原變數的不確定性就會減小了,因為新增了y的資訊,可以感受一下。不確定程度減少了多少就是資訊的增益。

熵,條件熵,互資訊,交叉熵

定義 用來度量資訊的不確定程度。解釋 熵越大,資訊量越大。不確定程度越低,熵越小,比如 明天太陽從東方公升起 這句話的熵為0,因為這個句話沒有帶有任何資訊,它描述的是乙個確定無疑的事情。例子 假設有隨機變數x,用來表達明天天氣的情況。x可能出現三種狀態 1 晴天2 雨天 3 陰天 每種狀態的出現概率...

熵與條件熵

熵 熵是表示隨機變數不確定性的度量,設x是乙個取有限個值的離散隨機變數,其概率分布為 則隨機變數x的熵定義為 若乙個隨機變數只有兩個值,那麼當x的分別為為p x1 p x2 0.5的時候,熵最大,變數也最不確定。條件熵設有隨機變數 x,y 其聯合概率分布為 這裡注意,這個條件熵,不是指的 舉個例子 ...

資訊熵概念隨筆 資訊熵 資訊的熵

之前碰到有人問,資訊熵的事,問到,有的地方說資訊熵是用來描述事物的不確定程度,取值範圍0 1 為什麼在計算資訊熵的時候,結果卻是大於1的。其實,這裡涉及到了資訊熵不同角度的概念問題,我就從我所了解的兩個角度講下這兩種情況。1.從資訊熵的作用定義出發,它就是用來描述事物的不確定程度,也就是當事物完全不...