統計學習方法 第五章決策樹

2021-10-24 12:48:05 字數 1131 閱讀 1018

描述對例項進行分類的樹型結構,決策樹由結點和有向邊組成,結點有兩種型別:內部結點(表示乙個特徵或屬性)和葉結點(乙個類)

用決策樹分類,從根節點開始,對例項的某一特徵進行測試,根據測試結果,將例項分配到其子節點,這時,每乙個子節點對於著該特徵的乙個取值,如此遞迴地對例項進行測試並分配,直至達到葉節點,最後將例項分到葉節點的類中。

假設x為表示特徵的隨機變數,y為表示類的隨機變數,那麼這個條件概率分布可以表示為p(x|y)。x取值於給定劃分下單元的集合,y取值於類的集合。

決策樹分類時將該結點的例項強行分到條件概率大的哪一類去。

本質上是從訓練資料集中歸納出一組分類規則。

決策樹學習是由訓練資料集估計條件概率模型,基於特徵空間劃分的類的條件概率模型有無窮多個,我們選擇的條件概率應該不僅對訓練資料有很好的擬合,而且對未知資料有很好的**。

決策樹用損失函式來實現這一目標,通常是正則化的極大似然函式。

決策樹學習策略是以損失函式為目標函式的最小化。

特徵選擇在於選取對訓練資料具有分類能力的特徵,可以提高決策樹學習的效率。

id3演算法:

在決策樹各個結點上應用資訊增益準則選擇特徵,遞迴地構建決策樹。

從根結點開始,對結點計算所有可能的特徵的資訊增益,選擇資訊增益最大的特徵作為結點的特徵,由該特徵的不同取值建立子節點,再對子節點遞迴地呼叫以上方法,構建決策樹,直到所有特徵的資訊增益均很小或沒有特徵可以選擇為止。

c4.5的生成演算法:

與id3演算法相似,c4.5生成的過程中,用資訊增益比來選擇特徵。

通過極小化決策樹整體的損失函式或者代價函式來實現。

cart是在給定輸入隨機變數x條件下輸出隨機變數y的條件概率分布的學習方法。

決策樹的生成就是遞迴地構建二叉樹的過程,對回歸樹用平方誤差最小化準則,對分類樹用基尼指數最小化準則進行特徵選擇,生成二叉樹。

最小二乘回歸樹:

選擇最優切分變數與切分點

用選定的對(j,s)劃分區域並決定相應的輸出值:

繼續對兩個子區域呼叫步驟(1)(2),直至滿足停止條件

將輸入空間劃分為m個區域,生成決策樹

分類樹的生成:

用基尼指數選擇最優特徵,同時決定該特徵的最優二值切分點。

剪枝,形成乙個子樹序列

在剪枝得到的子樹序列中通過交叉驗證選取最優子樹

統計學習方法筆記 第五章 決策樹

決策樹是一種基本的分類與回歸的方法,這裡只討論其分類過程。分類決策樹模型由結點和有向邊組成,結點分為內部結點和葉結點,內部結點代表代表乙個特徵或屬性,葉結點代表分類結果。根節點包含著所有的屬性,從根節點開始,對例項通過某一特徵進行測試,根據測試結果將例項分配到其子節點,如此遞迴地生成一棵決策樹。最後...

統計學習方法五 決策樹

結合之前的部落格 一 什麼是決策樹?決策樹是一種基本的分類和回歸演算法。決策樹模型呈樹形結構,可以認為是if then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。決策樹模型由結點和有向邊組成,結點分為內部結點和葉結點,內部結點表示特徵,葉結點表示類,有向邊表示某一特徵的取值。學習...

統計學習方法 第五章

資訊增益比 說完了資訊增益,來說一下資訊增益這種演算法的缺點,以資訊增益為準則在選擇特徵時,傾向於選擇取值較多的特徵作為最優特徵。因為資訊增益的目的是使得選擇這個特徵作為根節點之後,接下來的決策樹會越小越好也就是越容易分類。如果這個特徵的取值比較多,會使下一層比較寬佔據較多樣本,那自然再次遞迴時會更...