整合模型對比:rf,adaboost,gbdt,xgboost
1.與lightgbm相比,xgboost明顯的不足:
1)xgboosting採用預排序,在迭代之前,對結點的特徵做預排序,遍歷選擇最優分割點,資料量大時,貪心法耗時,lightgbm方法採用histogram演算法,占用的記憶體低,資料分割的複雜度更低;
2)xgboosting採用level-wise生成決策樹,同時**同一層的葉子,從而進行多執行緒優化,不容易過擬合,但很多葉子節點的**增益較低,沒必要進行跟進一步的**,這就帶來了不必要的開銷;lightgbm採用深度優化,leaf-wise生長策略,每次從當前葉子中選擇增益最大的結點進行**,迴圈迭代,但會生長出更深的決策樹,產生過擬合,因此引入了乙個閾值進行限制,防止過擬合.
2.adaboost和gbdt的異同點
1)關注點:分錯權值,殘差
adaboost每輪學習的乙個基本學習器是通過改變樣本的權值,關注上輪分類錯誤的樣本的權值,以逐步減少在訓練集上的分類誤差率。而gbdt每輪學習乙個基本學習器是通過改變輸出值,每輪擬合的值為真實值與已有的加法模型的差值(即殘差)。
2)異常點
:adaboost
存在異常點敏感的問題
,gbdt
一定程度上優化了
adaboost
異常點敏感的問題,但是存在難以並行的缺點
3)樹:gbdt無論是進行分類還是回歸問題,都用的cart樹,對分類問題用二叉分類樹,回歸問題用二叉回歸樹。
4)方差偏差:兩者的目標都是優化
bias
,必然導致訓練出來的資料
var的不穩定
3.rf和gbdt對比
相同點:1.都是由多棵樹組成;2.最終的結果都是由多棵樹一起決定;
不同點: 1)基於bagging思想,而gbdt是boosting思想,即取樣方式不同
2)rf可以並行生成,而gbdt只能是序列;
3)輸出結果,rf採用多數投票,gbdt將所有結果累加起來;
4)rf對異常值不敏感,gbdt敏感,rf減少方差,gbdt減少偏差;
4.gbdt和lr
從決策邊界來說,線性回歸的決策邊界是一條直線,lr的決策邊界是一條曲線,而gbdt的決策邊界可能是很多條線。gbdt並不一定總是好於線性回歸或lr。根據奧卡姆剃刀原則,如果gbdt和線性回歸或邏輯回歸在某個問題上表現接近,那麼我們應該選擇相對比較簡單的線性回歸或邏輯回歸。具體選擇哪乙個演算法還是要根據實際問題來決定。
5.gbdt和rf哪個容易過擬合?
rf,因為隨機森林的決策樹嘗試擬合資料集,有潛在的過擬合風險,而boosting的gbdt的決策樹則是擬合資料集的殘差,然後更新殘差,由新的決策樹再去擬合新的殘差,雖然慢,但是難以過擬合。
6.adaboost等幾種基本機器學習演算法哪個抗噪能力最強,哪個對重取樣不敏感?
adaboost對異常值敏感
k-means對異常值敏感
機器學習 模型樹
和回歸樹 在每個葉節點上使用各自的均值做 不同,模型樹演算法需要在每個葉節點上都構建出乙個線性模型,這就是把葉節點設定為分段線性函式,這個所謂的分段線性 piecewise linear 是指模型由多個線性片段組成。模型樹 def linearsolve dataset 模型樹的葉節點生成函式 m,...
樹模型 機器學習面試
cart採用的是二分法 對於連續屬性a,我們可考察包括 n 1 個元素的候選劃分集合 n 個屬性值可形成 n 1 個候選點 利用每個 提前結束 剪枝reduced error pruning rep,錯誤率降低剪枝 pesimistic error pruning pep,悲觀錯誤剪枝 cost c...
機器學習模型評估總結
acc urac y nc orre ctnt otal accuracy frac accura cy n tota l nc orre ct n co rrec tn ncorre ct 被正確分類的樣本個數 n to taln ntotal 總樣本個數 存在問題 當不同類別的樣本比例不均衡時,...