統計學習方法 決策樹

2021-08-21 14:54:04 字數 2251 閱讀 5802

決策樹是一種基本的分類與回歸方法。

一、決策樹模型

決策樹可以轉換成乙個if-then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布(特徵為變數,類為概率)。

cart與id3、id4.5的區別:cart假設決策樹是二叉樹,特徵取值為「是」或「否」。

二,決策樹的生成演算法

2.1、id3、id4.5演算法

id3和c4.5

輸入:訓練集d,特徵集a,閥值μ

輸出:決策樹t

如果d中的所有例項,都屬於同乙個類ck,那麼置t為單節點樹,並將ck作為該節點的類,返回t

如果a為空,置t為單節點樹,將d中例項數最大的類ck作為該節點的類,返回t

)否則,計算資訊增益(資訊增益比),選擇資訊增益最大(資訊增益比最大)的特徵ag。

如果ag的資訊增益(資訊增益比)小於閾值μ,置t為單節點樹,將d中例項數最大的類ck作為該節點的類,返回t

否則,對ag的每一可能值ai,依ag=ai將d分割為子集若干非空di,將di中例項樹最大的類作為標記,構建子節點,由節點及其子節點構成樹t,返回t;

對節點i,以di訓練集合,以a-為特徵集,遞迴呼叫(1)~(5),得到字數ti,返回ti。

2.2、cart分類決策樹

輸入:訓練資料集d,停止計算的條件;

輸出:cart決策樹。

根據訓練資料集,從根節點開始,遞迴地對每個節點進行以下操作,構建二叉決策樹:

設節點地訓練資料集為d,計算現有特徵對該資料集的基尼指數,此時,對每乙個特徵a,對其可能去地每個值a,根據樣本點對a=a地測試為「是」或「否」將d分割成d1和d2兩部分,利用特徵下地基尼指數計算a=a時地基尼指數。

在所有可能的特徵a以及他們所有可能的切分點a中,選擇基尼指數最小的特徵及其對應的切分點作為最優特徵與最優切分點。以最優特徵與最有切分點,從現節點生成兩個字節點,將訓練資料集依特徵分配到兩個字節點中去,

對兩個子節點遞迴地呼叫1,2.直至滿足停止條件;

生成cart決策樹。

2.3、cart回歸決策樹

輸入:訓練資料集d;

輸出:回歸樹f(x)。

在訓練資料集所在地輸入空間中,遞迴地將每個區域劃分為兩個子區域並決定每個子區域上的輸出值,構建二叉決策樹;

三、剪枝

3.1、決策樹的剪枝的原理

決策樹的剪枝往往通過極小化決策樹整體的損失函式或代價函式來實現。

3.11、樹的剪枝演算法(給定α

目的:減去cα(損失函式)大的葉節點

輸入:生成演算法產生的整個樹t,引數α;

輸出;修建後的子樹tα

(1)計算每個節點的經驗熵

(2)遞迴地從樹的葉節點向上回縮。

設一組葉節點回縮到其父節點之前與之後的整體樹分別為tb(葉節點)與ta(父節點),其對應的損失函式值分別是cα(tb)與cα(ta),如果cα(ta)父≤葉cα(tb),則進行剪枝,即將父節點變為新的葉節點。

(3)返回(2),直至不能繼續為止,得到損失函式最小的子樹tα

四、cart剪枝

4.1、cart剪枝原理(α未給定

用遞迴的方法對樹進行剪枝

4.2、cart剪枝演算法(未給定α

輸入:cart演算法生成的決策樹t0

輸出:最優決策樹tα

(1)設k=0,t=t0

(2)設α=+∞

(3)自下而上地對各個內部結點t計算c(tt),|tt|以及:g(t)=(單節點樹的損失-根節點樹的損失)/(葉節點-1)

α=min(α,g(t))

這裡,tt 表示t為根結點的子樹,c(tt) 是對訓練資料的**誤差,|tt| 是tt 的葉結點個數。

(4)自上而下地訪問內部節點t,如果有g(t)=α,進行剪枝,並對葉結點t以多數表決法決定其類,得到樹t。

(5)設k=k+1,αk=α,tk=t .

(6)如果t 不是由根結點構成的樹,則回到步驟(4) 。

(7)採用交叉驗證法在子樹序列t0,t1,...,tn 中選取最優子樹tα

統計學習方法 決策樹

決策樹學習的三個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹的結點 內部結點表示乙個特徵或屬性,葉節點表示乙個分類 決策樹的路徑或其對應的if then規則集合滿足性質 互斥且完備 決策樹學習本質上是從訓練資料集中歸納出一組分類規則 與訓練集不相矛盾的決策樹可能有很多,我們需要的是乙個與訓練資...

統計學習方法 5 決策樹

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別 內部結點和葉結點。內部結點表示乙個特徵或屬性,葉結點表示乙個類。決策樹的路徑或其對應的if then規則集合具有乙個重要的性質 互斥並且完備。這就是說,每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑...

《統計學習方法》之決策樹

決策數是一種基本的分類和回歸方法。主要優點是模型具有可讀性,分類快。學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型。決策樹學習通常包括3個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹中每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑或一條規則所覆蓋。決策樹學習是由訓練資料...