使用一般的尋量方法得到的決策樹會遇到乙個問題,那就是決策樹可能會變得過擬合(overfitted)——也就是說,它可能會變得過分針對訓練資料。專門針對訓練集所建立出來的分支,其熵值與真實情況相比,可能會有所降低,但因決策樹上的判斷條件其實是完全隨意的,因此一棵過擬合的決策樹所給出的答案也許會比實際情況更具特殊性,也即泛化能力較差。
一般的決策樹演算法直到無法再進一步降低熵的時候(if best_gain > 0)才會停止分支的建立,所以一種可行的解決方案就是,只有當熵減少的數量小於某個閾值時,我們就停止分支的建立。這種策略時常被人們採用,但是它有乙個小小的缺陷,我們可能會遇到這樣的資料集:某一次分支的建立並不會降低熵多少,但是隨後建立的分支卻會使熵大幅降低。對此,一種替代的策略是,先構造好整棵樹,然後再嘗試消除多餘的節點,這個過程就是剪枝(prune)。
剪枝的過程就是對具有相同父節點的一組節點進行檢查,判斷如果將其合併,熵的增加量是否會小於某個指定的閾值。如果確實如此,則這些節點會被合併成乙個單一的節點,合併後的新節點包含所有可能的結果值。
機器學習基礎 決策樹
決策樹演算法是機器學習中最經典的演算法之一。大家可能聽過一些高深的演算法,例如在競賽中經常使用的xgboost 各種整合演算法等,他們都是基於樹模型來建立的,所以掌握那些模型,首先我們需要掌握決策樹。樹 有乙個根節點,由根結點開始,不斷的擴充套件,最終到達葉子結點,葉子結點就是最終的點,後面就無法擴...
機器學習基礎學習 決策樹
決策樹是一種基本的分類與回歸方法,它是基於樹的結構進行決策的。決策樹分為分類樹和回歸樹兩種,分類樹對離散變數做決策樹,回歸樹對連續變數做決策樹。決策樹分類器就像判斷模組和終止塊組成的流程圖,終止塊表示分類結果 也就是樹的葉子 判斷模組表示對乙個特徵取值的判斷 該特徵有幾個值,判斷模組就有幾個分支 一...
機器學習基礎學習 決策樹
決策樹是一種基本的分類與回歸方法,它是基於樹的結構進行決策的。決策樹分為分類樹和回歸樹兩種,分類樹對離散變數做決策樹,回歸樹對連續變數做決策樹。決策樹分類器就像判斷模組和終止塊組成的流程圖,終止塊表示分類結果 也就是樹的葉子 判斷模組表示對乙個特徵取值的判斷 該特徵有幾個值,判斷模組就有幾個分支 一...