樹模型 機器學習面試

2021-10-23 12:58:25 字數 993 閱讀 1526

cart採用的是二分法:對於連續屬性a,我們可考察包括 n-1 個元素的候選劃分集合(n 個屬性值可形成 n-1 個候選點):

利用每個

提前結束

剪枝reduced-error pruning(rep,錯誤率降低剪枝)

pesimistic-error pruning(pep,悲觀錯誤剪枝)

cost-complexity pruning(ccp,代價複雜度剪枝)

minimum error pruning (mep, 最小誤差剪枝)

決策樹演算法中學習簡單的決策規則建立決策樹模型的過程非常容易理解,

決策樹模型可以視覺化,非常直觀

應用範圍廣,可用於分類和回歸,而且非常容易做多類別的分類

能夠處理數值型和連續的樣本特徵

很容易在訓練資料中生成複雜的樹結構,造成過擬合(overfitting)。剪枝可以緩解過擬合的負作用,常用方法是限制樹的高度、葉子節點中的最少樣本數量。

學習一棵最優的決策樹被認為是np-complete問題。實際中的決策樹是基於啟發式的貪心演算法建立的,這種演算法不能保證建立全域性最優的決策樹。random forest 引入隨機能緩解這個問題

gbdt和隨機森林的相同點:

都是由多棵樹組成

最終的結果都是由多棵樹一起決定

gbdt和隨機森林的不同點:

組成隨機森林的樹可以是分類樹,也可以是回歸樹;而gbdt只由回歸樹組成

組成隨機森林的樹可以並行生成;而gbdt只能是序列生成

對於最終的輸出結果而言,隨機森林採用多數投票等;而gbdt則是將所有結果累加起來,或者加權累加起來

隨機森林對異常值不敏感,gbdt對異常值非常敏感

隨機森林對訓練集一視同仁,gbdt是基於權值的弱分類器的整合

隨機森林是通過減少模型方差提高效能,gbdt是通過減少模型偏差提高效能

利用損失函式的負梯度在當前模型的值作為回歸問題提公升樹演算法中的殘差的近似值,擬合乙個回歸樹。gbdt 每輪迭代的時候,都去擬合損失函式在當前模型下的負梯度。

機器學習 模型樹

和回歸樹 在每個葉節點上使用各自的均值做 不同,模型樹演算法需要在每個葉節點上都構建出乙個線性模型,這就是把葉節點設定為分段線性函式,這個所謂的分段線性 piecewise linear 是指模型由多個線性片段組成。模型樹 def linearsolve dataset 模型樹的葉節點生成函式 m,...

機器學習 決策樹模型

決策樹通過生成決策規則來解決分類和回歸問題。整個模型非常容易理解,是所謂的白盒模型。比如通過年齡 職業 年齡 房產來評估信用值,文末有sklearn實現 類似於流程圖的樹結構,由乙個根節點,一組內部節點和一組葉節點組成。每個內部節點 包括根節點 表示在乙個屬性上的測試,每個分支表示乙個測試輸出,每個...

機器學習樹模型對比總結

整合模型對比 rf,adaboost,gbdt,xgboost 1.與lightgbm相比,xgboost明顯的不足 1 xgboosting採用預排序,在迭代之前,對結點的特徵做預排序,遍歷選擇最優分割點,資料量大時,貪心法耗時,lightgbm方法採用histogram演算法,占用的記憶體低,資...