優點:可讀性高、分類速度快、非引數型;
缺點:容易過擬合,可能陷入區域性最小值;
準則:損失函式-----正則化的極大似然函式
1、id3演算法(資訊增益)----決策樹的生成:
輸入:訓練資料集d
dd,特徵集a
aa,閾值ε
\varepsilon
ε;輸出:決策樹t
(1)若d中所有例項屬於同一類c
kc_k
ck,則t為單節點數,並將類別c
kc_k
ck作為該結點的類標記,返回t
tt;-----終止條件
(2)若a=⊘
a=\oslash
a=⊘,則t為單結點數,並將d中例項數最大的類c
kc_k
ck作為該結點的類標記,返回t;-----終止條件
(3)否則,計算a
aa中個特徵對d的資訊增益,選擇資訊增益最大的特徵a
ga_g
ag;
(4)如果a
ga_g
ag的資訊增益小於閾值ε
\varepsilon
ε,則置t為單結點樹,並將d中例項數最大的類作為標記;
(5)否則,對a
ga_g
ag的每乙個可能取值a
ia_i
ai,依次ag=
ai
a_g=a_i
ag=ai
將d分割為若干非空子集d
id_i
di,將d
id_i
di中例項數最大的類作為標記,構建子結點,由結點及其子結點構成樹t
tt,構成樹t
tt,返回t;
(6)對第i
ii個子結點,以d
id_i
di為訓練集,以a
−a-\
a−為特徵集,遞迴的呼叫(1)-(5),得到子樹t
it_i
ti,返回t
it_i
ti;
資訊增益演算法
輸入:訓練資料集d和特徵集a
輸出:特徵集a對訓練資料集d的資訊增益g(d
,a
)g(d,a)
g(d,a)
(1)計算資料集d
dd的經驗熵h(d
)h(d)
h(d):h(d
)=−∑
k=1k
dkdl
ogdk
dh(d)=-\sum_^k\fraclog\frac
h(d)=−
∑k=1
kdd
kl
ogdd
k;
(2)計算特徵集a
aa對資料集d
dd的經驗條件熵h(d
∣a
)h(d|a)
h(d∣a):h(
d∣a)
=∑i=
1ndi
dh(d
i)=−
∑i=1
ndid
(∑k=
1kdi
kdil
ogdi
kdi)
h(d|a)=\sum_^n\frach(d_i)=-\sum_^n\frac(\sum_^k\frac}log\frac})
h(d∣a)
=∑i=
1nd
di
h(di
)=−
∑i=1
ndd
i(
∑k=1
kdi
dik
lo
gdi
dik
)(i =1
,2,.
..,n
i=1,2,...,n
i=1,2,
...,
n表示特徵a
aa取值個數,d
id_i
di表示特徵a
aa取i
ii時資料集個數);
(3)計算資訊增益
g (d
∣a)=
h(d)
−h(d
∣a
)g(d|a)=h(d)-h(d|a)
g(d∣a)
=h(d
)−h(
d∣a)
決策樹模型
決策樹採用樹結構來進行決策的,可以認為是if then規則集合,也可以認為是對特徵空間劃分,每個子空間對應乙個輸出。其優點簡單,快速,可解釋性強。決策樹通常包含三部分 特徵選擇,決策樹生成,決策樹剪枝。資訊增益,資訊增益比,基尼指數是常用的特徵選擇準則 資訊熵 表示變數的不確定程度,資訊熵越大不確定...
決策樹模型
前言 決策樹生成模型三要素 一般而言,一顆 完全生長 的決策樹包含 特徵選擇 決策樹構建 剪枝三個過程。決策樹是一種啟發式貪心演算法,每次選取的分割資料的特徵是當前的最佳選擇,並不關心是否達到最優。一 特徵選擇 1.1 熵 樣本集合 純度 不確定性 穩定性的指標 熵越大,樣本的不確定性就越大 在決策...
決策樹模型
決策樹可以簡單的理解為根據特徵的取值而最終分成不同的類,也可以理解為簡單的if then的規則集合 樹嘛 那麼怎麼樣選擇節點是乙個很有技術的問題。為什麼呢,因為如果你的中間節點擊的不錯是不是就能夠很容易的將決策樹的各個節點很容易的分清楚了 說白了,你選的樹分叉的地方越有區分度 分類越多越好你乙個特徵...