CART樹為什麼使用GINI係數

2021-09-13 16:47:05 字數 611 閱讀 6251

id3演算法中,選擇的是資訊增益來進行特徵選擇,資訊增益大的特徵優先選擇。

而在c4.5中,選擇的是資訊增益比來選擇特徵,以減少資訊增益容易選擇特徵值多的特徵的缺點。

但是無論是id3還是c4.5,都是基於熵的模型,裡面會涉及到大量的對數運算,能不能簡化一下?

假設有資料集d,定義gini指數

g in

i∗(d

)=∑i

=1kp

k∗(1

−pk)

=1−∑

i=1k

pk

2gini*(d) = \sum_^k p_k * (1 - p_k) = 1 - \sum_^k p_k ^ 2

gini∗(

d)=i

=1∑k

​pk​

∗(1−

pk​)

=1−i

=1∑k

​pk2

​從公式中可以看出來,基尼指數的意義是從資料集d中隨機抽取兩個樣本類別標識不一致的概率。基尼指數越小,資料集的純度越高。

相比於資訊增益,資訊增益比等作為特徵選擇方法,基尼指數省略了對數計算,運算量比較小,也比較容易理解,所以cart樹選擇使用基尼係數用來做特徵選擇。

為什麼MySQL使用B 樹?

首先需要理解磁碟io的原理 硬碟中一般會有多個碟片組成,每個碟片包含兩個面,每個盤面都對應地有乙個讀 寫磁頭。將磁軌劃分為若干個弧段,每個磁軌上乙個弧段被稱之為乙個扇區 圖踐綠色部分 扇區是磁碟的最小組成單元。硬碟通常由重疊的一組碟片構成,每個盤面都被劃分為數目相等的磁軌,並從外緣的 0 開始編號,...

為什麼網易系擅長做產品

看到過很多文章講網易系的創業者,說來慚愧,身為網易系,我只是個好的產品經理,並不是好的創業者。不過我倒是可以試著總結一下,為什麼網易系的產品大都做得不錯。2006 2012年,我在網易任職5年多,從門戶調動到杭研,從內容總監到產品總監。本文所述,多是這5年在門戶與杭研的見聞。和大多數人的想象不同,網...

為什麼網易系擅長做產品

看到過很多文章講網易系的創業者,說來慚愧,身為網易系,我只是個好的產品經理,並不是好的創業者。不過我倒是可以試著總結一下,為什麼網易系的產品大都做得不錯。2006 2012年,我在網易任職5年多,從門戶調動到杭研,從內容總監到產品總監。本文所述,多是這5年在門戶與杭研的見聞。和大多數人的想象不同,網...