資訊熵 資訊不確定度

2021-07-25 04:48:23 字數 969 閱讀 4423

2 直觀解釋

資訊熵用來衡量資訊量的大小

若不確定性越大,則資訊量越大,熵越大

若不確定性越小,則資訊量越小,熵越小

比如a班對b班,勝率乙個為x,另乙個為1-x

則資訊熵為 -(xlogx + (1-x)log(1-x))

求導後容易證明x=1/2時取得最大,最大值為2

也就是說兩者勢均力敵時,不確定性最大,熵最大。

3 應用

資料探勘中的決策樹。

構建決策樹的過程,就是減小資訊熵,減小不確定性。從而完整構造決策樹模型。

所以我們需要在每一次選擇分支屬性時,計算這樣分類所帶來的資訊熵的增益,增益越大,不確定性越小,最終也就是我們要選擇的分支屬性。

首先我們會在未進行任何分類前求取乙個資訊熵,這個資訊熵涉及到只是簡單的求取樣本標籤的分布,然後按照公式求解資訊熵。

之後在選用某乙個屬性作為分支屬性後,我們需要計算每乙個子分支中的樣本標籤的分布,然後計算每個子樣本的資訊熵,最後加權平均(期望),求得總的資訊熵。

計算前後兩個資訊熵的差值,選擇最大的增益屬性作為分支屬性。

一直遞迴下去,對每乙個子樣本套用上述方法。直到所有的樣本都被歸類於某個葉節點,即不可再分為止。

以上方法是id3方法,還有更好的c4.5方法

c4.5方法選用資訊增益比,克服了id3使用資訊增益選擇屬性時偏向取值較多的屬性的不足。

除了可以處理離散型別的屬性,還可以處理連續型。

處理連續型屬性時,最重要的一步確定分割點。這裡同樣需要用到資訊增益比。

我們可以人工的為選擇一系列的分割點,然後分別計算被分割點分割的前後兩個區間的資訊熵,最後加權求得該分割點情況下的資訊熵。

最後取資訊增益最大的分割點作為分割條件。

簡而言之,和id3相比,就是在計算分割點的時候,需要額外用到一次資訊增益法。

資訊熵概念隨筆 資訊熵 資訊的熵

之前碰到有人問,資訊熵的事,問到,有的地方說資訊熵是用來描述事物的不確定程度,取值範圍0 1 為什麼在計算資訊熵的時候,結果卻是大於1的。其實,這裡涉及到了資訊熵不同角度的概念問題,我就從我所了解的兩個角度講下這兩種情況。1.從資訊熵的作用定義出發,它就是用來描述事物的不確定程度,也就是當事物完全不...

資訊熵和散度

首先給出夏農資訊量的概念 事件出現的概率越大,所包含的資訊量越小 可加性不能為負 h x l og2p xh x log 2p x h x log2 px p xp x px 是事件x xx發生的概率 熵是所有事件發生的資訊量的期望 h p ipi log2 pi h p sum ip i log ...

資訊熵與資訊熵增益

資料的資訊屬性是與任務相關的.對於分類任務,標籤值 y 包含的資訊量為 info y ln p y 其中,p y 為 y 出現的概率.p y 越小,y 包含的資訊量越大.這是符合直覺的.熵定義為資訊的期望值.乙個可以分為 m 類的資料集 s 它的資訊熵為隨機得到的乙個label包含的資訊量的期望值 ...