通俗理解條件熵數學

就是決策樹裡面選劃分屬性用到的計算

條件熵越小表示劃分之後各個集合越純淨

前面我們總結了資訊熵的概念通俗理解資訊熵 - 知乎專欄,這次我們來理解一下條件熵。

我們首先知道資訊熵是考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。公式如下：

我們的條件熵的定義是：定義為x給定條件下，y的條件概率分布的熵對x的數學期望

這個還是比較抽象，下面我們解釋一下：

設有隨機變數（x,y），其聯合概率分布為

條件熵h（y|x）表示在已知隨機變數x的條件下隨機變數y的不確定性。隨機變數x給定的條件下隨機變數y的條件熵h(y|x)

下面推導一下條件熵的公式：

注意，這個條件熵，是指在給定某個數（某個變數為某個值）的情況下，另乙個變數的熵是多少，變數的不確定性是多少？

因為條件熵中x也是乙個變數，意思是在乙個變數x的條件下（變數x的每個值都會取），另乙個變數y熵對x的期望。

這是最容易錯的！

下面通過例子來解釋一下：

假如我們有上面資料：

設隨機變數y=

我們可以統計出，嫁的個數為6/12 = 1/2

不嫁的個數為6/12 = 1/2

那麼y的熵，根據熵的公式來算，可以得到h（y） = -1/2log1/2 -1/2log1/2

為了引出條件熵，我們現在還有乙個變數x，代表長相是帥還是不帥，當長相是不帥的時候，統計如下紅色所示：

可以得出，當已知不帥的條件下，滿足條件的只有4個資料了，這四個資料中，不嫁的個數為1個，佔1/4

嫁的個數為3個，佔3/4

那麼此時的h（y|x = 不帥） = -1/4log1/4-3/4log3/4

p(x = 不帥) = 4/12 = 1/3

同理我們可以得到：

當已知帥的條件下，滿足條件的有8個資料了，這八個資料中，不嫁的個數為5個，佔5/8

嫁的個數為3個，佔3/8

那麼此時的h（y|x = 帥） = -5/8log5/8-3/8log3/8

p(x = 帥) = 8/12 = 2/3

有了上面的鋪墊之後，我們終於可以計算我們的條件熵了，我們現在需要求：

h（y|x = 長相）

也就是說，我們想要求出當已知長相的條件下的條件熵。

根據公式我們可以知道，長相可以取帥與不帥倆種

條件熵是另乙個變數y熵對x（條件）的期望。

公式為：

h（y|x=長相） = p(x =帥)*h（y|x=帥）+p(x =不帥)*h（y|x=不帥）

然後將上面已經求得的答案帶入即可求出條件熵！

這裡比較容易錯誤就是忽略了x也是可以取多個值，然後對其求期望！！

其實條件熵意思是按乙個新的變數的每個值對原變數進行分類，比如上面這個題把嫁與不嫁按帥，不帥分成了倆類。

然後在每乙個小類裡面，都計算乙個小熵，然後每乙個小熵乘以各個類別的概率，然後求和。

我們用另乙個變數對原變數分類後，原變數的不確定性就會減小了，因為新增了x的資訊，可以感受一下。不確定程度減少了多少就是資訊的增益。

後面會講資訊增益的概念，資訊增益也是決策樹演算法的關鍵。

致謝：德川，皓宇，繼豪，施琦

通俗理解條件熵

1資訊熵以及引出條件熵我們首先知道資訊熵是考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。公式如下我們的條件熵的定義是定義為x給定條件下，y的條件概率分布的熵對x的數學期望這個還是比較抽象，下面我們解釋一下設有隨機變數 x,y 其聯合概率分布為條件熵h y x 表示...

理解條件熵

1 資訊熵以及引出條件熵我們首先知道資訊熵是考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。公式如下我們的條件熵的定義是定義為x給定條件下，y的條件概率分布的熵對x的數學期望這個還是比較抽象，下面我們解釋一下設有隨機變數 x,y 其聯合概率分布為條件熵h y x 表...

資訊熵的公式的通俗理解

先丟擲資訊熵公式如下其中代表隨機事件x為的概率，下面來逐步介紹資訊熵的公式資訊量是對資訊的度量，就跟時間的度量是秒一樣，當我們考慮乙個離散的隨機變數x的時候，當我們觀察到的這個變數的乙個具體值的時候，我們接收到了多少資訊呢？多少資訊用資訊量來衡量，我們接受到的資訊量跟具體發生的事件有關。資訊...

通俗理解條件熵 數學

通俗理解條件熵

理解條件熵

資訊熵的公式的通俗理解

相關推薦

通俗理解條件熵數學