分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別:內部結點和葉結點。內部結點表示乙個特徵或屬性,葉結點表示乙個類。
決策樹的路徑或其對應的if-then規則集合具有乙個重要的性質:互斥並且完備。這就是說,每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑或一條規則所覆蓋。
決策樹還表示給定特徵條件下類的條件概率分布。這一條件概率分布定義在特徵空間的乙個劃分上。將特徵空間劃分為互不相交的單元或區域,並在每個單元定義乙個類的概率分布就構成了乙個條件概率分布。決策樹的一條路徑對應於劃分中的乙個單元。決策樹所表示的條件概率分布由各個單元給定條件下類的條件概率分布組成。
決策樹學習本質上是從訓練資料集中歸納出一組分類規則。我們需要的是乙個與訓練資料矛盾較小的決策樹,同時具有很好的泛化能力。
決策樹學習的演算法通常是乙個遞迴地選擇最優特徵,並根據該特徵對訓練資料進行分割,使得對各個子資料集有乙個最好的分類的過程。
決策樹學習演算法包含特徵選擇、決策樹的生成與決策樹的剪枝過程。
特徵選擇在於選取對訓練資料具有分類能力的特徵。
熵:表示隨機變數不確定性的度量
條件熵:條件熵h(y|x)表示在已知隨機變數x的條件下隨機變數y的不確定性。
當熵和條件熵中的概率由資料估計(特別是極大似然估計)得到時,所對應的熵與條件熵分別稱為經驗熵和經驗條件熵。
資訊增益表示得知特徵x的資訊而使得類y的資訊的不確定性減少的程度。 g(
d,a)
=h(d
)−h(
d,a)
一般地,熵h(y)與條件熵h(y|x)之差稱為互資訊。決策樹學習中的資訊增益等價於訓練資料集中類與特徵的互資訊。
根據資訊增益準則的特徵選擇方法是:對訓練資料集(或子集)d,計算其每個特徵的資訊增益,並比較它們的大小,選擇資訊增益最大的特徵。gr
(d,a
)=g(
d,a)
h(d)
id3演算法的核心是在決策樹各個結點上應用資訊增益準則選擇特徵,遞迴地構建決策樹。id3相當於用極大似然法進行概率模型的選擇。
c4.5在生成的過程中,用資訊增益比來選擇特徵。
在決策樹學習中將已生成的樹進行簡化的過程稱為剪枝。決策樹的剪枝往往通過極小化決策樹整體的損失函式或代價函式來實現。
設樹t的葉結點個數為|t|,t是樹t的葉結點,該葉結點有nt
個樣本點,其中k類的樣本點有n_個,k=1,2,…,k,h_t(t)為葉結點t上的經驗熵,a≥0為引數,
損失函式:cα
(t)=
∑|t|
t=1n
tht(
t)+α
|t| ,其中經驗熵為:ht
(t)=
−∑kn
tknt
logn
tknt
c(t)=∑
|t|t
=1nt
ht(t
)=∑|
t|t=
1∑kk
=1nt
klog
ntkn
t c(t)表示模型對訓練資料的**誤差,即模型與訓練資料的擬合程度,|t|表示模型複雜度,引數a≥0控制兩者之間的影響。
決策樹生成只考慮了通過提高資訊增益(或資訊增益比)對訓練資料進行更好的擬合。而決策樹剪枝通過優化損失函式還考慮了減小模型複雜度。決策樹生成學習區域性的模型,而決策樹剪枝學習整體的模型。
cart演算法由以下兩步組成:
(1)決策樹生成:基於訓練資料集生成決策樹,生成的決策樹要盡量大;
(2)決策樹剪枝:用驗證資料集對已生成的樹進行剪枝並選擇最優子樹,這時用損失函式最小作為剪枝的標準。
對回歸樹用平方誤差最小化準則,對分類樹用基尼指數最小化準則,進行特徵選擇,生成二叉樹。
回歸樹的生成
乙個回歸樹對應著輸入空間(即特徵空間)的乙個劃分以及在劃分的單元上的輸出值。假設已將輸入空間劃分為m個單元r1
,r2,
…,rm
,並且在每個單元rm
上有乙個固定的輸出值cm
,於是回歸樹模型可表示為f(
x)=∑
mm=1
cmi(
x∈rm
) 用平方誤差來表示回歸樹對於訓練資料的**誤差,用平方誤差最小的準則求解每個單元上的最優輸出值。
對輸入空間進行劃分:遍歷所有輸入變數,找到最優的切分變數j,構成乙個對(j,s)。
分類樹的生成
統計學習方法 決策樹
決策樹是一種基本的分類與回歸方法。一 決策樹模型 決策樹可以轉換成乙個if then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布 特徵為變數,類為概率 cart與id3 id4.5的區別 cart假設決策樹是二叉樹,特徵取值為 是 或 否 二,決策樹的生成演算法 2.1 id3 id...
統計學習方法 決策樹
決策樹學習的三個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹的結點 內部結點表示乙個特徵或屬性,葉節點表示乙個分類 決策樹的路徑或其對應的if then規則集合滿足性質 互斥且完備 決策樹學習本質上是從訓練資料集中歸納出一組分類規則 與訓練集不相矛盾的決策樹可能有很多,我們需要的是乙個與訓練資...
《統計學習方法》之決策樹
決策數是一種基本的分類和回歸方法。主要優點是模型具有可讀性,分類快。學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型。決策樹學習通常包括3個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹中每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑或一條規則所覆蓋。決策樹學習是由訓練資料...