剪枝操作是決策樹學習演算法對付「過擬合」的主要手段。
因為有時候決策樹的分支過多,導致訓練集合把自身的一些特點當作所有資料都具有的一般性質而導致過擬合。因此主動剪掉一些分支來降低過擬合的風險。
指的是在決策樹的生成過程中,對每個結點在劃分前進行估計,如果當前結點的劃分不能帶來決策樹泛化效能的提公升,則停止劃分當前結點並且標記為葉子節點。
優點預剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風險而且顯著減少了決策樹的訓練時間開銷和測試時間開銷。
缺點有些分支的劃分雖然當前並不能提高泛化效能,甚至有時會導致泛化效能的下降,但是在其基礎上進行的後續劃分卻有可能導致泛化效能的提高,而預剪枝則抹殺了這種可能性。
預剪枝是基於「貪心」本質禁止分支展開,因此有可能導致欠擬合。
先從訓練集合中生成一棵完整的決策樹,然後自底向上地對非葉結點進行考察,若能將該結點對應的子樹替換為葉子結點可以帶來決策樹泛化效能的提公升,則將子樹替換為葉子結點。
優點欠擬合風險小,泛化效能往往優於預剪枝決策樹缺點
在完全生成決策樹之後進行,並且要自底向上地對樹中所有非葉子結點逐一進行考察,因此其訓練時間開銷比未剪枝決策樹和預剪枝決策樹大得多
如何判斷泛化效能是否提公升?
做法:可以採用留出法,保留一部分的資料作為「驗證集」以進行效能評估。
此時一共有兩個部分的集合:訓練集
s ,驗證集
t使用訓練集
s ,生成一棵決策樹。
泛化效能就是指使用驗證集
t是對樣例預判的正確率。正確率越高,泛化效能就越好。
機器學習筆記 決策樹學習
決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...
機器學習 決策樹
一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...
機器學習 決策樹
我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...