資訊熵與Gini不純度

1、資訊熵

資訊理論中的資訊量和資訊熵。

資訊量：

資訊量是對資訊的度量，就跟溫度的度量是攝氏度一樣，資訊的大小跟隨機事件的概率有關。

例如：在哈爾濱的冬天，一條訊息說：哈爾濱明天溫度30攝氏度，這個事件肯定會引起轟動，因為它發生的概率很小（資訊量大）。日過是夏天，「明天溫度30攝氏度」可能沒有人覺得是乙個新聞，因為夏天溫度30攝氏度太正常了，概率太大了（資訊點太小了）

從這個例子中可以看出乙個隨機事件的資訊量的大小與其發生概率是成反相關的。

夏農定義的乙個事件的資訊資訊量為：i(x) = log2(1/p) 其中p為事件x發生的概率

資訊熵：entropy

乙個隨機變數 x 可以代表n個隨機事件，對應的隨機變為x=xi,

那麼熵的定義就是 x的加權資訊量。

h(x) = p(x1)i(x1)+...+p(xn)i(x1)

= p(x1)log2(1/p(x1)) +.....+p(xn)log2(1/p(xn))

= -p(x1)log2(p(x1)) - ........-p(xn)log2(p(xn))

其中p(xi)代表xi發生的概率

例如有32個足球隊比賽，每乙個隊的實力相當，那麼每乙個對勝出的概率都是1/32

那麼要猜對哪個足球隊勝出非常困難，

這個時候的熵h(x) = 32 * (1/32)log(1/(1/32)) = 5

熵也可以作為乙個系統的混亂程度的標準

試想如果32個隊中有乙個是ac公尺蘭，另外31個對是北郵計算機1班隊，2班，...31班

那麼幾乎只有乙個可能 ac公尺蘭勝利的概率是100%，其他的都是0%，這個系統的熵

就是 1*log(1/1) = 0.

這個系統其實是有序的，熵很小，而前面熵為5 系統處於無序狀態。

2、基尼不純度

基尼不純度的大概意思是乙個隨機事件變成它的對立事件的概率

例如乙個隨機事件x ，p(x=0) = 0.5 ,p(x=1)=0.5

那麼基尼不純度就為 p(x=0)*(1 - p(x=0)) +

p(x=1)*(1 - p(x=1)) = 0.5

乙個隨機事件y ，p(y=0) = 0.1 ,p(y=1)=0.9

那麼基尼不純度就為p(y=0)*(1 - p(y=0)) +

p(y=1)*(1 - p(y=1)) = 0.18

很明顯 x比y更混亂，因為兩個都為0.5 很難判斷哪個發生。而y就確定得多，y=0發生的概率很大。而基尼不純度也就越小。

所以基尼不純度也可以作為衡量系統混亂程度的標準

決策樹與熵 Gini不純度計算

要使用決策樹，就必須計算不純度，計算公式有熵和基尼不純度熵和基尼不純度計算公式為 img 舉個例子，假設有樣本 table a1 a2 b1 2 8 b2 6 4 table 則開始的時候，熵值為 e 0.1 log2 0.1 0.4 log2 0.4 0.3 log2 0.3 0.2 log2 ...

資訊熵與資訊熵增益

資料的資訊屬性是與任務相關的.對於分類任務,標籤值 y 包含的資訊量為 info y ln p y 其中,p y 為 y 出現的概率.p y 越小,y 包含的資訊量越大.這是符合直覺的.熵定義為資訊的期望值.乙個可以分為 m 類的資料集 s 它的資訊熵為隨機得到的乙個label包含的資訊量的期望值 ...

最大資訊熵增益資訊熵與資訊增益

1.資訊熵資訊熵就是指不確定性，熵越大，不確定性越大 2.關於資訊增益資訊增益是針對乙個乙個的特徵而言的，就是看乙個特徵t，系統有它和沒它的時候資訊量各是多少，兩者的差值就是這個特徵給系統帶來的資訊量，即增益。系統含有特徵t的時候資訊量很好計算，就是剛才的式子，它表示的是包含所有特徵時系統的資訊...

資訊熵與Gini不純度

決策樹與熵 Gini不純度計算

資訊熵與資訊熵增益

最大資訊熵增益 資訊熵與資訊增益

相關推薦

最大資訊熵增益資訊熵與資訊增益