決策樹如何防止過擬合

2022-05-19 16:22:22 字數 1337 閱讀 5762

決策樹在長成的過程中極易容易出現過擬合的情況,導致泛化能力低。主要有兩種手段可以用於防止過擬合。

early stopping,在完全長成以前停止,以防止過擬合。主要有以下3種方式:

限制樹的高度,可以利用交叉驗證選擇

利用分類指標,如果下一次切分沒有降低誤差,則停止切分

限制樹的節點個數,比如某個節點小於100個樣本,停止對該節點切分

對乙個xor的資料集生成決策樹:

下面如果使用x[1]切分:

又或者用x[2]切分:

發現,無論選擇哪乙個維度進行切分都不會使得訓練誤差降低了。所以根據early stopping,僅僅長成只有乙個節點的stump。但是實際上:

繼續切下去,能學成一顆具有良好區分度的決策樹。所以「提前停止」的第2種情況既有利也有弊:

我們通過一顆決策樹的葉子結點個數來定義這棵樹有多複雜。

但是樹太簡單也不好,訓練誤差太大,欠擬合。所以,訓練出一顆好的決策樹就是在樹的訓練誤差與複雜程度之間做權衡。

寫成數學公式,可以表示為:

舉例說明

有一顆已經長成的樹:

從底部開始考慮,第乙個要檢查的切分點是term:

假設懲罰性lambda是0.3:演算法

過擬合以及如何防止過擬合

過擬合即模型在訓練過程中對模型引數進行擬合的過程中,由於訓練資料集存在抽樣誤差 雜訊 複雜的模型在訓練的過程中會將抽樣誤差也一同進行擬合。這就導致訓練好的模型在訓練集上的表現很好,在測試集上的表現很差的原因。導致過擬合的主要原因有兩個 資料量太少和模型過於複雜 因為機器學習演算法在擬合出正確的規則後...

如何防止過擬合及欠擬合

1.過擬合 1.1 定義 是指模型對於訓練資料擬合呈現過當的情況,反映到評估指標上就是模型在訓練集上的表現很好,但是在測試集上的表現較差。結果就是訓練出的模型泛化能力差。1.2 如何防止過擬合 防止過擬合的方法有4種 1 增加訓練集資料 該方式是從資料入手,將更多的資料參與到模型的訓練中,這是最有效...

如何防止過擬合和欠擬合

過擬合和欠擬合是模型訓練過程中經常出現的問題,兩種情況正好相反,現將兩者的定義及如何防止進行簡要總結。是指模型對於訓練資料擬合呈現過當的情況,反映到評估指標上就是模型在訓練集上的表現很好,但是在測試集上的表現較差。結果就是訓練出的模型泛化能力差。防止過擬合的方法有4種 1 增加訓練集資料 該方式是從...