也可以認為是定義在特徵空間與類空間上的條件概率分布。
決策樹主要優點:模型具有可讀性,分類速度快。
學習時,利用訓練資料,根據損失函式最小化的原則,建立決策樹模型。
**時,對新的資料,利用決策樹模型進行分類
決策樹學習包括3 個步驟:特徵選擇、決策樹的生成和決策樹的修剪
決策樹結構
有向邊(directed edge)
決策樹生成過程
熵(entropy):隨機變數不確定性的度量
設x
xx是乙個取有限個值的離散隨機變數,其概率分布為p(x
=xi)
=pi,
i=1,
2,..
.,
np(x=x_i)=p_i,i=1,2,...,n
p(x=xi
)=p
i,i
=1,2
,...
,n則隨機變數x
xx的熵:h(x
)=−∑
i=1n
pi
logpi
=h(p
)h(x)=-\sum_^np_i\log p_i=h(p)
h(x)=−
∑i=1
npi
logpi
=h(
p)
條件熵h(y
∣x
)h(y|x)
h(y∣x)
:在已知隨機變數x
xx的條件下,隨機變數y
yy的不確定性
經驗熵和經驗條件熵:即熵和條件熵,由資料估計〈特別是極大似然估計〉得到。
資訊增益(information gain)表示得知特徵x
xx的資訊,而使得類y
yy的資訊的不確定性減少的程度
資訊增益
資訊增益比
c
4.5c4.5
c4.5
演算法決策樹學習的損失函式
繼而,有損失函式cα(
t)=c
(t)+
α∣t∣
c_\alpha(t)=c(t)+\alpha|t|
cα(t)
=c(t
)+α∣
t∣決策樹的剪枝演算法
輸入:生成演算法嚴生的整個樹t
tt,引數α
\alpha
α;輸出:修剪後的子樹t
αt_\alpha
tα。
(1)計算每個結點的經驗熵
(2)遞迴地從樹的葉結點向上回縮。設一組葉結佔回縮到其父結點之前與之後的整體樹分別為t
bt_b
tb與t
at_a
ta,其對應的損失函式值分別是cα(
tb
)c_\alpha(t_b)
cα(tb
)與c α(
ta
)c_\alpha(t_a)
cα(ta
),如果cα(
ta)≤
cα(t
b)
c_\alpha(t_a)\leq c_\alpha(t_b)
cα(ta
)≤c
α(t
b) ,則進行剪枝,即將父結點變為新的葉結點;
(3)返回(2)直至不能繼續為止,得到損失函式最小的子樹ttt。
注意:步驟(2)只需考慮兩個樹的損失函式的差,其計算可以在區域性進行,所以,決策樹的剪枝演算法可以由一種動態規劃的演算法實現。
回歸樹生成
決策樹演算法
決策樹是一種樹型結構,其中每個內部結點表示在乙個屬性上的測試,每個分支代表乙個測試輸出,每個葉結點代表一種類別。決策樹學習是以例項為基礎的歸納學習,採用的是自頂向下的遞迴方法,其基本思想是以資訊熵為度量構造一棵熵值下降最快的樹,到葉子結點處的熵值為零,此時每個葉節點中的例項都屬於同一類。決策樹學習演...
決策樹演算法
本文主要介紹id3 c4.5和cart演算法 決策樹起源於概念學習系統 cls 概念學習模型 是乙個事先定義的範疇集合和一些有關例子是否落入給定範疇的判定 概念學習的主要任務 是判斷所給定事物的屬性或特性,並且正確地區分這些事物,將其劃分到某乙個範疇 對於如下決策樹模型 我們首先考慮他的屬性outl...
決策樹演算法
引 最近老師布置了課堂展示的作業,主題是決策樹,老師還舉了買西瓜的決策例子,感覺貼近生活也很有意思。在這之前沒有了解過這個概念,通過幾個禮拜的學習收穫不少。一 首先,什麼是決策樹?個人而言,決策樹就是將人在做決策時的思維脈絡以樹的形式展示出來的產物,即決策的過程模型。這是一棵去不去打高爾夫球的決策樹...