三大決策樹的比較 ID3 C4 5 CART

2021-10-23 20:27:55 字數 2089 閱讀 8445

型別

id3c4.5

cart

解決問題

分類分類

分類、回歸

劃分指標

資訊增益

增益率基尼指數

指標特點

會偏向可取值數目加多的屬性

會偏向可取值數目較少的屬性

屬性選擇

選擇資訊增益最大的屬性

先找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的

選擇劃分後基尼指數最小的屬性

劃分規則

多叉的多叉的

二叉的,所以選擇最優特徵後還需要決定該特徵的最優二值切分點

優缺點di3會偏向可取值數目加多的屬性

id3演算法並未給出處理連續資料的方法

id3演算法不能處理帶有缺失值的資料集

id3演算法只有樹的生成, 所以容易過擬合

c4.5可以處理連續值

c4.5時間耗費大

cart可以解決回歸問題

其中,資訊熵定義:

e nt

(d)=

−∑k=

1npk

log2

pk

ent(d)=-\sum_^p_klog_2p_k

ent(d)

=−k=

1∑n​

pk​l

og2​

pk​其中 n

nn 為d中的類別數。

資訊增益定義:

離散屬性a有v個可能取值,使用a對樣本集d劃分,產生v個子樣本集dvdv

,則用屬性a對樣本集d進行劃分所獲得的資訊增益為$gai

n(d,

a)=e

nt(d

)−∑v

=1vc

(dv)

c(d)

ent(

dv

)gain(d,a)=ent(d)-\sum_^ent(d^v)}

gain(d

,a)=

ent(

d)−v

=1∑v

​c(d

)c(d

v)​e

nt(d

v)其中 c(d) 表示集合 d 的大小。

增益率定義:

g ai

n_ra

tio(

d,a)

=gai

n(d,

a)iv

(a

)gain\_ratio(d,a)=\frac

gain_r

atio

(d,a

)=iv

(a)g

ain(

d,a)

​其中,iv(

a)=−

∑v=1

vc(d

v)c(

d)lo

g2c(

dv)c

(d

)iv(a)=-\sum_^vlog_2\frac}

iv(a)=

−v=1

∑v​c

(d)c

(dv)

​log

2​c(

d)c(

dv)​

稱為屬性 a 的「固有值」。屬性 a 的可能取值數目越多,則 iv(a) 的值通常會越大。

基尼指數定義:

g in

i_in

dex(

d,a)

=∑v=

1vc(

dv)c

(d)g

ini(

dv

)gini\_index(d,a)=\sum_^v\fracgini(d^v)

gini_i

ndex

(d,a

)=v=

1∑v​

c(d)

c(dv

)​gi

ni(d

v)其中 gin

i(d)

=1−∑

k=1n

pk

2gini(d)=1-\sum_^np_k^2

gini(d

)=1−

k=1∑

n​pk

2​稱為資料集 d 的基尼值。

決策樹模型ID3 C4 5演算法比較

兩者都是決策樹學習的經典演算法 一.id3演算法 id3由ross quinlan在1986年提出。id3決策樹可以有多個分支,但是不能處理特徵值為連續的情況。決策樹是一種貪心演算法,每次選取的分割資料的特徵都是當前的最佳選擇,並不關心是否達到最優。在id3中,每次根據 最大資訊熵增益 選取當前最佳...

機器學習 決策樹C4 5 ID3

step1 計算資訊熵 step2 劃分資料集 step3 建立決策樹 step4 利用決策樹分類 重點 選擇乙個屬性進行分支。注意資訊熵計算公式。決策樹作為典型的分類演算法,基本思路是不斷選取產生資訊增益最大的屬性來劃分樣例集和,構造決策樹。資訊增益定義為結點與其子結點的資訊熵之差。1.資訊熵計算...

決策樹演算法ID3,C4 5, CART

決策樹是機器學習中非常經典的一類學習演算法,它通過樹的結構,利用樹的分支來表示對樣本特徵的判斷規則,從樹的葉子節點所包含的訓練樣本中得到 值。決策樹如何生成決定了所能處理的資料型別和 效能。主要的決策樹演算法包括id3,c4.5,cart等。id3是由 ross quinlan在1986年提出的一種...