冰凍三尺,非一日之寒;水滴石穿,非一日之功。
由於決策樹的分支過多,使得訓練集某一小部分的樣本特徵被當成所有樣本所具有的一般性質,會導致過擬合現象,而決策樹應對過擬合的主要辦法就是剪枝。那麼,決策樹的剪枝具體是如何操作的?
決策樹的剪枝分為預剪枝和後剪枝兩種。顧名思義,預剪枝在建樹過程中進行,而後剪枝則在建樹完成之後才進行。
預剪枝如上一節所講建樹過程,節點依據資訊增益和增益率擴充套件子節點,在這個過程中,驗證集的整體準確率會隨著節點的擴充套件發生變化。某次擴充套件如果導致驗證集當前分類準確率降低,則捨棄,這便是預剪枝。
預剪枝不僅能降低過擬合風險,還大大降低了決策樹的建樹時間複雜度。但是,由於預剪枝使用貪心策略決定是否展開分支,不能全域性權衡利弊,也給最終模型帶來了欠擬合風險。
後剪枝後剪枝是一種全域性優化方法。當決策樹建樹完成也就是全部節點都展開後,後剪枝從下往上依次考查各個非葉子結點,考察方法和預剪枝一樣,若當前節點的擴充套件在驗證集上並未提高準確率,則捨棄。
後剪枝既降低了過擬合風險,又降低了欠擬合風險。但是,後剪枝由於是在生成完整決策樹之後進行,因此模型的整體時間複雜度會比較高。
機器學習 統計學學習方法 決策樹
決策樹的定義 分類決策模型是一種描述對例項金星分類的樹形結構。決策樹是由節點和有向邊組成的。節點有兩種型別,分別是內部節點和葉節點。內部節點表示乙個特徵或是是屬性,葉節點表示乙個類。一般而言 決策樹學習是由特徵選擇,決策樹生成和剪枝的三個過程。在特徵的選擇上是採用資訊增益或者說資訊增益比來進行區分的...
機器學習筆記4 決策樹
table of contents 問題域模型函式 目標函式 訓練演算法 id3 iterative dichotomiser 3 c4.5 id3的改進演算法 cart classification and regression tree 優點 缺點及優化方案 分類問題,適合離散型 連續型資料 是...
統計學習方法 決策樹
決策樹是一種基本的分類與回歸方法。一 決策樹模型 決策樹可以轉換成乙個if then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布 特徵為變數,類為概率 cart與id3 id4.5的區別 cart假設決策樹是二叉樹,特徵取值為 是 或 否 二,決策樹的生成演算法 2.1 id3 id...