資訊熵與Gini不純度

2021-07-10 07:04:13 字數 1423 閱讀 7356

1、資訊熵

資訊理論中的資訊量資訊熵。

資訊量:

資訊量是對資訊的度量,就跟溫度的度量是攝氏度一樣,資訊的大小跟隨機事件的概率有關。

例如: 在哈爾濱的冬天,一條訊息說:哈爾濱明天溫度30攝氏度,這個事件肯定會引起轟動,因為它發生的概率很小(資訊量大)。日過是夏天,「明天溫度30攝氏度」可能沒有人覺得是乙個新聞,因為夏天溫度30攝氏度太正常了,概率太大了(資訊點太小了)

從這個例子中可以看出 乙個隨機事件的資訊量的大小與其發生概率是成反相關的。

夏農定義的乙個事件的資訊資訊量為:i(x) = log2(1/p) 其中p為事件x發生的概率

資訊熵:entropy

乙個隨機變數 x 可以代表n個隨機事件,對應的隨機變為x=xi,

那麼熵的定義就是 x的加權資訊量。

h(x) = p(x1)i(x1)+...+p(xn)i(x1) 

= p(x1)log2(1/p(x1)) +.....+p(xn)log2(1/p(xn))

= -p(x1)log2(p(x1)) - ........-p(xn)log2(p(xn))

其中p(xi)代表xi發生的概率

例如有32個足球隊比賽,每乙個隊的實力相當,那麼每乙個對勝出的概率都是1/32

那麼 要猜對哪個足球隊勝出 非常困難,

這個時候的熵h(x) = 32 * (1/32)log(1/(1/32)) = 5

熵也可以作為乙個系統的混亂程度的標準

試想如果32個隊中有乙個是ac公尺蘭,另外31個對是北郵計算機1班隊,2班,...31班

那麼幾乎只有乙個可能 ac公尺蘭勝利的概率是100%,其他的都是0%,這個系統的熵

就是 1*log(1/1) = 0.

這個系統其實是有序的,熵很小,而前面熵為5 系統處於無序狀態。

2、基尼不純度

基尼不純度的大概意思是 乙個隨機事件變成它的對立事件的概率

例如 乙個隨機事件x ,p(x=0) = 0.5 ,p(x=1)=0.5

那麼基尼不純度就為   p(x=0)*(1 - p(x=0)) +  

p(x=1)*(1 - p(x=1))  = 0.5

乙個隨機事件y ,p(y=0) = 0.1 ,p(y=1)=0.9

那麼基尼不純度就為p(y=0)*(1 - p(y=0)) +  

p(y=1)*(1 - p(y=1))  = 0.18

很明顯 x比y更混亂,因為兩個都為0.5 很難判斷哪個發生。而y就確定得多,y=0發生的概率很大。而基尼不純度也就越小。

所以基尼不純度也可以作為 衡量系統混亂程度的 標準

決策樹與熵 Gini不純度計算

要使用決策樹,就必須計算不純度,計算公式有熵和基尼不純度 熵和基尼不純度計算公式為 img 舉個例子,假設有樣本 table a1 a2 b1 2 8 b2 6 4 table 則開始的時候,熵值為 e 0.1 log2 0.1 0.4 log2 0.4 0.3 log2 0.3 0.2 log2 ...

資訊熵與資訊熵增益

資料的資訊屬性是與任務相關的.對於分類任務,標籤值 y 包含的資訊量為 info y ln p y 其中,p y 為 y 出現的概率.p y 越小,y 包含的資訊量越大.這是符合直覺的.熵定義為資訊的期望值.乙個可以分為 m 類的資料集 s 它的資訊熵為隨機得到的乙個label包含的資訊量的期望值 ...

最大資訊熵增益 資訊熵與資訊增益

1.資訊熵 資訊熵就是指不確定性,熵越大,不確定性越大 2.關於資訊增益 資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊...