決策樹與熵 Gini不純度計算

2021-09-02 03:28:10 字數 855 閱讀 9053

要使用決策樹,就必須計算不純度,計算公式有熵和基尼不純度

熵和基尼不純度計算公式為:

[img]

舉個例子,假設有樣本:

[table]

||a1|a2|

|b1|2|8|

|b2|6|4

[/table]

則開始的時候,熵值為:

e=-0.1*log2(0.1)-0.4*log2(0.4)-0.3*log2(0.3)-0.2*log2(0.2)=1.846

根據屬性a劃分樣本,則兩個子樣本分別為:

[table]

||a1|

|b1|2|

|b2|6|

[/table]

[table]

||a2|

|b1|8|

|b2|4

[/table]

兩個子樣本的熵分別為0.811和0.92,所以劃分後總的樣本([color=darkred]要乘於子樣本比例[/color]):(8/20)*0.811+(12/20)*0.92=0.88,同樣可以計算按照屬性b劃分樣本後樣本熵值為:

[table]

||a1|a2|

|b1|2|8|

[/table]

子樣本1,熵0.72

[table]

||a1|a2|

|b2|6|4

[/table]

子樣本2,熵0.97

(10/20)*0.72+(10/20)*0.97=0.845

可以看出,根據屬性b劃分後,總體的熵值更小,即樣本混亂度更小,故根據b劃分效果更好

同樣可以根據計算基尼不純度公式計算。實際使用中,熵值對於混亂的懲罰更小,使用熵的情況更多。

資訊熵與Gini不純度

1 資訊熵 資訊理論中的資訊量和資訊熵。資訊量 資訊量是對資訊的度量,就跟溫度的度量是攝氏度一樣,資訊的大小跟隨機事件的概率有關。例如 在哈爾濱的冬天,一條訊息說 哈爾濱明天溫度30攝氏度,這個事件肯定會引起轟動,因為它發生的概率很小 資訊量大 日過是夏天,明天溫度30攝氏度 可能沒有人覺得是乙個新...

gini係數 決策樹 白話決策樹 評價

首先輸入以下 from sklearn.datasets import load winefrom sklearn.model selection import train test splitfrom sklearn import treefrom six import stringioimpor...

決策樹 夏農熵

熵 entropy 是表示隨機變數不確定性的度量.所以熵越小越好 之所以po出來是因為裡面好多小函式自己找了好久 r語言用的人太少了 好痛苦 computing shannonent calshannonent function dataset t null shannonent 0 for i i...