型別
id3c4.5
cart
解決問題
分類分類
分類、回歸
劃分指標
資訊增益
增益率基尼指數
指標特點
會偏向可取值數目加多的屬性
會偏向可取值數目較少的屬性
屬性選擇
選擇資訊增益最大的屬性
先找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的
選擇劃分後基尼指數最小的屬性
劃分規則
多叉的多叉的
二叉的,所以選擇最優特徵後還需要決定該特徵的最優二值切分點
優缺點di3會偏向可取值數目加多的屬性
id3演算法並未給出處理連續資料的方法
id3演算法不能處理帶有缺失值的資料集
id3演算法只有樹的生成, 所以容易過擬合
c4.5可以處理連續值
c4.5時間耗費大
cart可以解決回歸問題
其中,資訊熵定義:
e nt
(d)=
−∑k=
1npk
log2
pk
ent(d)=-\sum_^p_klog_2p_k
ent(d)
=−k=
1∑n
pkl
og2
pk其中 n
nn 為d中的類別數。
資訊增益定義:
離散屬性a有v個可能取值,使用a對樣本集d劃分,產生v個子樣本集dvdv
,則用屬性a對樣本集d進行劃分所獲得的資訊增益為$gai
n(d,
a)=e
nt(d
)−∑v
=1vc
(dv)
c(d)
ent(
dv
)gain(d,a)=ent(d)-\sum_^ent(d^v)}
gain(d
,a)=
ent(
d)−v
=1∑v
c(d
)c(d
v)e
nt(d
v)其中 c(d) 表示集合 d 的大小。
增益率定義:
g ai
n_ra
tio(
d,a)
=gai
n(d,
a)iv
(a
)gain\_ratio(d,a)=\frac
gain_r
atio
(d,a
)=iv
(a)g
ain(
d,a)
其中,iv(
a)=−
∑v=1
vc(d
v)c(
d)lo
g2c(
dv)c
(d
)iv(a)=-\sum_^vlog_2\frac}
iv(a)=
−v=1
∑vc
(d)c
(dv)
log
2c(
d)c(
dv)
稱為屬性 a 的「固有值」。屬性 a 的可能取值數目越多,則 iv(a) 的值通常會越大。
基尼指數定義:
g in
i_in
dex(
d,a)
=∑v=
1vc(
dv)c
(d)g
ini(
dv
)gini\_index(d,a)=\sum_^v\fracgini(d^v)
gini_i
ndex
(d,a
)=v=
1∑v
c(d)
c(dv
)gi
ni(d
v)其中 gin
i(d)
=1−∑
k=1n
pk
2gini(d)=1-\sum_^np_k^2
gini(d
)=1−
k=1∑
npk
2稱為資料集 d 的基尼值。
決策樹模型ID3 C4 5演算法比較
兩者都是決策樹學習的經典演算法 一.id3演算法 id3由ross quinlan在1986年提出。id3決策樹可以有多個分支,但是不能處理特徵值為連續的情況。決策樹是一種貪心演算法,每次選取的分割資料的特徵都是當前的最佳選擇,並不關心是否達到最優。在id3中,每次根據 最大資訊熵增益 選取當前最佳...
機器學習 決策樹C4 5 ID3
step1 計算資訊熵 step2 劃分資料集 step3 建立決策樹 step4 利用決策樹分類 重點 選擇乙個屬性進行分支。注意資訊熵計算公式。決策樹作為典型的分類演算法,基本思路是不斷選取產生資訊增益最大的屬性來劃分樣例集和,構造決策樹。資訊增益定義為結點與其子結點的資訊熵之差。1.資訊熵計算...
決策樹演算法ID3,C4 5, CART
決策樹是機器學習中非常經典的一類學習演算法,它通過樹的結構,利用樹的分支來表示對樣本特徵的判斷規則,從樹的葉子節點所包含的訓練樣本中得到 值。決策樹如何生成決定了所能處理的資料型別和 效能。主要的決策樹演算法包括id3,c4.5,cart等。id3是由 ross quinlan在1986年提出的一種...