無論是分類樹還是回歸樹,剪枝過程很重要,剪枝處理不當或是沒有剪枝操作,決策樹模型都是失敗的,通過剪枝,可以大大提高模型準確度,避免決策樹的過擬合。
決策樹生成演算法遞迴地生成決策樹,直到不能繼續下去為止,產生的樹對於訓練集會有很好的模型準確率,但是對於未知的測試資料分類卻沒有那麼準確,因此,對書的剪枝很重要。
決策樹剪枝的演算法流程如下:
輸入:生成演算法產生的整個樹t,引數alpha
輸出:修剪後的子數t-alpha
(1)計算每個節點的經驗熵
(2)遞迴地從樹的葉節點向上回縮,設回縮前後的樹分別為t-b和t-a,對應的損失函式分別為c-alpha(t-b)和c-alpha(t-a),如果c-alpha(t-b)<= c-alpha(t-a),進行剪枝,將父節點變為葉子節點
(3)返回(2),直至不能剪枝為止,得到損失函式最小的子樹t-alpha
ML筆記 決策樹
十分有幸可以參加datawhale組隊學習活動,希望可以與datawhale的小夥伴們共同學習,共同進步。決策樹是一種常見的分類模型,在金融分控 醫療輔助診斷等諸多行業具有較為廣泛的應用。決策樹的核心思想是基於樹結構對資料進行劃分,這種思想是人類處理問題時的本能方法。例如在婚戀市場中,女方通常會先看...
決策樹剪枝
剪枝是決策樹學習演算法中對付過擬合的主要手段,決策樹剪枝的基本策略有預剪枝和後剪枝 預剪枝 是指在決策樹生成過程中,對每個節點在劃分前先進行估計,若當前的劃分不能帶來泛化效能的提公升,則停止劃分,並將當前節點標記為葉節點 後剪枝 是指先從訓練集生成一顆完整的決策樹,然後自底向上對非葉節點進行考察,若...
ML筆記 CH4 決策樹
僅個人讀書筆記.本章知識點核心 特徵選擇 剪枝處理 連續與缺失值處理 決策樹採取了遞迴的思想,可用於分類,也可以用於回歸。包括3個步驟 特徵選擇 決策樹的生成和決策樹的修剪。主要有id3 c4.5和cart三種演算法。4.3 剪枝處理 4.4 連續與缺失值 決策樹 一棵決策樹包含乙個根結點 若干個內...