決策樹演算法 3 CART演算法

2021-10-08 09:50:04 字數 1692 閱讀 4378

cart(classification and regression tree,即分類回歸樹演算法)是一種著名的決策樹學習演算法,可用於分類和回歸任務。

c ar

tcart

cart

演算法使用「基尼指數」來選擇劃分屬性。

假定當前樣本集合 d

dd 中第 k

kk 類樣本所佔的比例為pk(

k=1,

2,..

.,∣y

∣)

p_k (k=1,2,...,|y|)

pk​(k=

1,2,

...,

∣y∣)

。資料集 d

dd 的純度可用基尼值來度量:

g in

i(d)

=∑k=

1∣y∣

∑k′≠

kpkp

k′=∑

k=1∣

y∣pk

(1−p

k)=1

−∑k=

1∣y∣

pk

2gini(d)=\sum^_\sum_p_kp_=\sum^_p_k(1-p_k)=1-\sum^_p^2_k

gini(d

)=k=

1∑∣y

∣​k′

​=k

∑​pk

​pk′

​=k=

1∑∣y

∣​pk

​(1−

pk​)

=1−k

=1∑∣

y∣​p

k2​直觀來說,gin

i(d)

gini(d)

gini(d

) 反映了從資料集 d

dd 中隨機抽取 2

22 個樣本,其類別標記不一致的概率。因此,$gini(d) $ 越小,基尼值越小,則資料集 d

dd 的純度越高。屬性 α

αα 的基尼指數定義:

g in

i_in

dex(

d,a)

=∑v=

1v∣d

v∣∣d

∣gin

i(dv

)gini\_index(d,a)=\sum^v_\fracgini(d^v)

gini_i

ndex

(d,a

)=v=

1∑v​

∣d∣∣

dv∣​

gini

(dv)

基尼指數越小,表示使用屬性 a

aa 劃分後純度的提公升越大。因此,在屬性集合 a

aa 中,選擇基尼指數最小的屬性 a

aa 作為最優劃分屬性,即 a∗=

arga

∈ami

ngin

i_in

dex(

d,a)

a_*=arg_mingini\_index(d,a)

a∗​=ar

ga∈a

​min

gini

_ind

ex(d

,a)。

c ar

tcart

cart

演算法中主要分為兩個步驟

將樣本遞迴劃分進行建樹過程

用驗證資料進行剪枝

reference:《機器學習》

決策樹(CART演算法)

分類問題中,假設有k個類,樣本點屬於第k類的概率為p kp k pk 則概率分布的基尼指數定義為 其中p kp k pk 表示選中的樣本屬於k kk類別的概率,則這個樣本被分錯的概率為 1 pk 1 p k 1 pk 對於給定的樣本集合d,其基尼指數為 這裡的c kc k ck 是d中屬於第k類的樣...

決策樹(三) CART演算法

cart 分類與回歸樹 也就是說cart演算法既可以用於分類,也可以用於回歸,它是在給定輸入隨機變數x條件下輸出隨機變數y的條件概率分布的學習方法,其也和回歸樹一樣是二叉樹。是cart演算法,也是分為 特徵選擇,樹的生成,樹的剪枝。其實感覺前兩步可以合併為一步,因為樹的生成過程中就是不斷的進行特徵的...

決策樹演算法ID3,C4 5, CART

決策樹是機器學習中非常經典的一類學習演算法,它通過樹的結構,利用樹的分支來表示對樣本特徵的判斷規則,從樹的葉子節點所包含的訓練樣本中得到 值。決策樹如何生成決定了所能處理的資料型別和 效能。主要的決策樹演算法包括id3,c4.5,cart等。id3是由 ross quinlan在1986年提出的一種...