利用資訊增益構建決策樹例項
資訊增益比
id3演算法
c4.5生成演算法
決策樹的剪枝
cart演算法
決策樹是基本的分類和回歸方法。但是主要用於分類。在分類問題中,表示基於特徵對樣本進行分類的過程,也可以認為是在特徵空間與類空間上的條件概率分布(類空間就是分類的結果,比如有二分類:是否問題)。之所以說是條件概率分布,是因為在給定某個特徵a條件下樣本的分類。
具有可讀性,分類速度快
分類決策樹是一種對樣本進行分類的樹形結構。遞迴地選擇最優特徵
決策樹地構建,可能對訓練資料集有很好的分類能力,但是對未知的測試資料卻未必,可能發生過擬合現象。需要對其進行修剪,使之具有很好的泛化能力,具體講就是去掉過於細分的葉子結點,使其回退到父結點,甚至更好的結點,然後將回退到的點更改為新的葉子結點。
某個不確定性的可能取值,比如拋硬幣可以取[正,反]
表示隨機變數不確定性的度量,就是對[正,反]的一種度量。在上面的圖中,
隨機變數x是乙個有限個數的離散隨機變數,概率分布為 p(
x=xi
)=pi
,i=1
,2,3
,...
n p(x
=xi)
=pi,
i=1,
2,3,
...n
h(p)=
−∑1n
pilo
gpi h(p
)=−∑
1npi
logp
i墒越大,隨機變數的不確定性就越大。不確定性大,就是x的取值很多樣化,而不是幾乎只為某個值,就很混亂的意思
利用特徵x對樣本劃分,使得類y的不確定性的減小程度
計算h(d)h(
d)=−
∑k=1
k|ck
||d|
log2
|ck|
|d| h(d
)=−∑
k=1k
|ck|
|d|l
og2|
ck||
d|計算條件墒h(d|a)
對應定義h(
y|x)
=∑ni
=1pi
h(y|
x=xi
) h(y
|x)=
∑i=1
npih
(y|x
=xi)
可以知道 h(
d|a)
=∑ni
=1|d
i||d
|h(d
i)=−
∑ni=
1|di
||d|
∑kk=
1|ci
k||d
i|lo
g2|d
ik||
di| h(d
|a)=
∑i=1
n|di
||d|
h(di
)=−∑
i=1n
|di|
|d|∑
k=1k
|cik
||di
|log
2|di
k||d
i|計算資訊增益
在特徵有多種取值的時候,資訊增益都會比較大,但這種切分有時可能會沒有意義,比如根據日期,或者根據id切分 gr
(d,a
)=g(
d,a)
h(d)
g r(
d,a)
=g(d
,a)h
(d)比如根據id劃分,每個id取值就會有乙個最純的結果,導致g(d|a)很大,直接從h(d)減為0,即g(d|a)=h(d),但是在資訊增比中確為1
id3演算法核心是在決策樹各個結點上應用資訊增益進行選擇特徵,遞迴地構建決策樹。
具體為:從根結點開始,對結點計算所有可能的特徵的資訊增益,選擇資訊增益最大的特徵作為該結點的特徵,由該特徵的不同取值構建子結點;再對子結點遞迴地呼叫上述方法,構建決策樹;直到所有的特徵的資訊增益均很小或者沒有特徵可以選擇為止。id3只有樹的生成,容易過擬合
決策樹的損失函式cα
(t)=
∑t=1
|t|n
tht(
t)+α
|t| cα(
t)=∑
t=1|
t|nt
ht(t
)+α|
t|其中,訓練集d的子集ht
(t) ht(
t)墒為 ht(
t)=−
∑k=1
kntk
ntlo
gntk
nth t(
t)=−
∑k=1
kntk
ntlo
gntk
nt|t|是模型的複雜度,α α
如果大,就會選擇較小的|t
| |t
|,因此模型就會簡單一些
機器學習筆記 決策樹學習
決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...
《機器學習》學習筆記之決策樹
決策樹,顧名思義,以樹的結構來進行 它的基本概念在章節開頭有詳細的介紹。構建樹的遞迴演算法中,有三個情形會導致遞迴返回。其中第二個 當前屬性 特徵 集為空,或是所有樣本在所有屬性上取值相同,無法劃分。其意思是 已經沒有特徵拿來作進一步劃分生成子節點,或者此結點中的樣本標記不一致,但是他們在剩餘待劃分...
機器學習之決策樹學習筆記
機器學習之決策樹學習筆記 什麼是決策樹?決策樹是根據資料特徵 屬性 進行不斷分類最終得到結論的一種機器學習方法。point1 資料特徵的選擇的依據是屬性的資訊增益 部分?point2 不斷分類表明決策樹是乙個遞迴過程 一 資訊熵與資訊增益 決策樹學習的關鍵是如何選擇最優劃分屬性,隨著劃分過程不斷進行...