隨機取樣->隨機特徵->多棵決策樹->多數投票(分類)/取平均值(回歸)
優點:並行
隨機性的引入,增加了多樣性,泛化能力非常強,抗雜訊能力強,對缺失值不敏感;
可省略交叉驗證,因隨機取樣;
並繼承決策樹有的優點,包括:
(1)可得到特徵重要性排序,因此可做「特徵選擇」;
(2)可處理高維特徵,且不用特徵選擇;
(3)能處理離散型/連續型資料,無需規範化;
缺點:
隨機森林在解決回歸問題時,表現較差,這是因為它並不能給出乙個連續的輸出。
隨機森林已經被證明在某些噪音較大的分類或者回歸問題上會過擬合。
對於許多統計建模者來說,隨機森林給人的感覺就像乙個黑盒子,無法控制模型內部執行(可控性差)。
對於小資料或者低維資料(特徵較少的資料),可能不能產生很好的分類。
可能有很多相似的決策樹,掩蓋了真實的結果。
執行速度雖然比boosting等快(隨機森林屬於bagging),但比單只決策樹慢多了。
1. 為什麼隨機抽樣?
保證基分類器的多樣性,若每棵樹的樣本集都一樣,那訓練的每棵決策樹都是一樣
2. 為什麼要有放回的抽樣?
保證樣本集間有重疊,若不放回,每個訓練樣本集及其分布都不一樣,可能導致訓練的各決策樹差異性很大,最終多數表決無法 「求同」,即最終多數表決相當於「求同」過程。
3. 為什麼不用全樣本訓練?
全樣本忽視了區域性樣本的規律,不利於模型泛化能力
4. 為什麼要隨機特徵?
隨機特徵保證基分類器的多樣性(差異性),最終整合的泛化效能可通過個體學習器之間的差異度而進一步提公升,從而提高泛化能力和抗噪能力
5. 需要剪枝嗎?
不需要6. rf與決策樹的區別?
(1)rf是決策樹的整合;
(2)rf中是「隨機屬性型」決策樹
7. rf為什麼比bagging效率高?
bagging無隨機特徵,使得訓練決策樹時效率更低
機器學習筆記 隨機森林
隨機森林是典型的bagging整合演算法,它的所有基評估器都是決策樹。分類樹整合的森林叫隨機森林分類器,回歸樹整合的森林叫隨機森林回歸器。重要引數 max depth 限制樹的最大深度,超過設定深度的樹枝全部剪掉。min samples leaf 限定,乙個節點在分枝後的每個子節點都必須包含至少mi...
《機器學習演算法 6 隨機森林》
隨機森林演算法是通過訓練多個決策樹,綜合多個樹的結果進行投票,從而實現分類。1.生成單棵決策樹 2.生成t顆決策樹 3.部分 4 其他 sklearn randomforestclassifier n estimators 100 引數 隨機森林中需要訓練多個樹,所以決策樹有的引數它也有。n est...
機器學習面試筆記整理7 Adaboost
上一輪樣本分佈 基分類器進行學習 誤差率 分類器權重 更新樣本權重 優點 1.可使用不同分類器 lr,dt 作為基分類器 2.精度高 缺點 1.對異常值敏感 2.基分類器數目 迭代次數 不好設定 3.對樣本不平衡敏感 1.樣本 分類器權重如何確定的?根據上一輪的誤差率e求得本輪分類器權重 與e成反比...