cart(classification and regression tree,即分類回歸樹演算法)是一種著名的決策樹學習演算法,可用於分類和回歸任務。
c ar
tcart
cart
演算法使用「基尼指數」來選擇劃分屬性。
假定當前樣本集合 d
dd 中第 k
kk 類樣本所佔的比例為pk(
k=1,
2,..
.,∣y
∣)
p_k (k=1,2,...,|y|)
pk(k=
1,2,
...,
∣y∣)
。資料集 d
dd 的純度可用基尼值來度量:
g in
i(d)
=∑k=
1∣y∣
∑k′≠
kpkp
k′=∑
k=1∣
y∣pk
(1−p
k)=1
−∑k=
1∣y∣
pk
2gini(d)=\sum^_\sum_p_kp_=\sum^_p_k(1-p_k)=1-\sum^_p^2_k
gini(d
)=k=
1∑∣y
∣k′
=k
∑pk
pk′
=k=
1∑∣y
∣pk
(1−
pk)
=1−k
=1∑∣
y∣p
k2直觀來說,gin
i(d)
gini(d)
gini(d
) 反映了從資料集 d
dd 中隨機抽取 2
22 個樣本,其類別標記不一致的概率。因此,$gini(d) $ 越小,基尼值越小,則資料集 d
dd 的純度越高。屬性 α
αα 的基尼指數定義:
g in
i_in
dex(
d,a)
=∑v=
1v∣d
v∣∣d
∣gin
i(dv
)gini\_index(d,a)=\sum^v_\fracgini(d^v)
gini_i
ndex
(d,a
)=v=
1∑v
∣d∣∣
dv∣
gini
(dv)
基尼指數越小,表示使用屬性 a
aa 劃分後純度的提公升越大。因此,在屬性集合 a
aa 中,選擇基尼指數最小的屬性 a
aa 作為最優劃分屬性,即 a∗=
arga
∈ami
ngin
i_in
dex(
d,a)
a_*=arg_mingini\_index(d,a)
a∗=ar
ga∈a
min
gini
_ind
ex(d
,a)。
c ar
tcart
cart
演算法中主要分為兩個步驟
將樣本遞迴劃分進行建樹過程
用驗證資料進行剪枝
reference:《機器學習》
決策樹(CART演算法)
分類問題中,假設有k個類,樣本點屬於第k類的概率為p kp k pk 則概率分布的基尼指數定義為 其中p kp k pk 表示選中的樣本屬於k kk類別的概率,則這個樣本被分錯的概率為 1 pk 1 p k 1 pk 對於給定的樣本集合d,其基尼指數為 這裡的c kc k ck 是d中屬於第k類的樣...
決策樹(三) CART演算法
cart 分類與回歸樹 也就是說cart演算法既可以用於分類,也可以用於回歸,它是在給定輸入隨機變數x條件下輸出隨機變數y的條件概率分布的學習方法,其也和回歸樹一樣是二叉樹。是cart演算法,也是分為 特徵選擇,樹的生成,樹的剪枝。其實感覺前兩步可以合併為一步,因為樹的生成過程中就是不斷的進行特徵的...
決策樹演算法ID3,C4 5, CART
決策樹是機器學習中非常經典的一類學習演算法,它通過樹的結構,利用樹的分支來表示對樣本特徵的判斷規則,從樹的葉子節點所包含的訓練樣本中得到 值。決策樹如何生成決定了所能處理的資料型別和 效能。主要的決策樹演算法包括id3,c4.5,cart等。id3是由 ross quinlan在1986年提出的一種...