bagging和boosting是樹模型整合的兩種典型方式。bagging整合隨機挑選樣本和特徵訓練不同樹,每棵樹盡可能深,達到最高的精度。依靠小偏差收斂到理想的準確率。boosting演算法注重迭代構建一系列分類器, 每次分類都將上一次分錯的樣本的權重提高,依靠弱模型和多次迭代達到最高精度。
randomforest是一種典型的bagging整合演算法。訓練時,針對樣本,會隨機抽取不同的樣本和特徵訓練不剪枝的cart樹,一直訓練到達到預定義的基分類器個數。對於輸出,針對分類問題,**結果是各個基分類器的投票,針對回歸問題,**結果是各個分類器的輸出結果的平均值。
準確率: 相比gbdt演算法,它預設引數的效果不錯,可以很好地作為baseline模型
空間:空間複雜度因為需要訓練大量的樹, 所以很耗記憶體.
模型複雜度: 模型很簡單
過擬合: 每次採取部分的樣本, 所以在樹的深度和樹的數量不過分的情況下, 是不會出現過擬合現象的.
雜訊影響: 採取隨機採取的方式,不一定會採到特徵, 所以抗雜訊能力很好
是否可並行化: 因為樹模型之間無關聯,所以可以並行化.
調參: 樹的棵樹, 層數, 特徵數量, 葉子節點的最少樣本數量, 內部節點的最少樣本數量,
支援多種樹整合,可以形成強大的異構整合演算法
在隨機挑選樣本和特徵,可以減少異常點的影響,降低過擬合
耗時耗記憶體:每個基分類器的準確率不是很高,所以要求有大量的基分類器才能取得良好的效果,分界線是100,所以整體的訓練時間很長,一般適合小資料訓練
主要調節樹的棵樹和深度、選擇樣本和特徵的比例
相比gbdt的預設輸出,rf的預設引數要好一些。
先調節分類器個數從10:200的範圍內挑,但是一般資料較小的話,10:100就可以了
在調節最大深度,調節最大深度要和內部節點的最小樣本數量一起調,最大深度的範圍[3-20],節點的最小樣本數量範圍[50,200]
在調節內部節點的最少樣本數量和葉子節點的最少樣本數量,範圍分別是[80,150],[10,50]
最後調節特徵數量,一般是[0.5,0.8]
隨機森林之Bagging法
摘要 在隨機森林介紹 中提到了bagging方法,這裡就具體的學習下bagging方法。bagging方法是乙個統計重取樣的技術,它的基礎是bootstrap。基本思想是 利用bootstrap方法重取樣來生成多個版本的 分類器,然後把這些分類器進行組合。通常情況下組合的分類器給出的結果比單一分類器...
決策樹模型總結
1 決策樹定義 決策樹分為分類決策樹和回歸決策樹。分類決策樹應用範圍比較廣,其核心思想就是在乙個資料集上找到乙個最優的特徵,然後從這個特徵的選值中找到乙個最優的候選值,根據這個最優候選值將資料集劃分為兩個子資料集,然後遞迴上述操作,直到滿足指定條件為止。以下主要介紹分類決策樹。決策樹的生成過程主要包...
整合學習之bagging和boosting
整合演算法目標 整合演算法會考慮多個評估器的建模結果,彙總之後得到乙個綜合的結果,以此來獲取比單個模型更好的回歸或分類表現。整合學習 ensemble learning 通過構建並結合多個學習器來完成學習任務。一般結構為 先產生一組 個體學習器 再用某種策略將它們結合起來。但要獲得好的整合,個體學習...