模型構建思想
隨機取樣->隨機特徵->多棵決策樹->多數投票(分類)/取平均值(回歸)
「隨機」體現在**:
1)特徵隨機
2)樣本隨機
優缺點
優點:1.並行
2. 隨機性的引入,增加了多樣性,泛化能力非常強,抗雜訊能力強,對缺失值不敏感;
3.可省略交叉驗證,因隨機取樣;
4.並繼承決策樹的優點,包括:
(1)可得到特徵重要性排序,因此可做「特徵選擇」;
(2)可處理高維特徵,且不用特徵選擇;
(3)能處理離散型/連續型資料,無需規範化;
缺點:1.隨機森林在解決回歸問題時,表現較差,因為它並不能給出乙個連續的輸出;
2.隨機森林已經被證明在某些噪音較大的分類或回歸問題上會過擬合;
3. 對許多統計建模者來說,隨機森林給人的感覺像乙個黑盒子,無法控制模型內部的執行(可控性差);
4. 對於小資料或者低維資料(特徵較少的資料),可能不能產生很好的分類。
5. 可能有很多相似的決策樹,掩蓋了真實的結果。
6. 執行速度雖然比boosting等快(隨機森林屬於bagging),但比單只決策樹慢多了。
面試問題收集:
1. 為什麼隨機抽樣?
保證基分類器的多樣性,若每棵樹的樣本集都一樣,那訓練的每棵決策樹都是一樣
2. 為什麼要有放回的抽樣?
保證樣本集間有重疊,若不放回,每個訓練樣本集及其分布都不一樣,可能導致訓練的各決策樹差異性很大,最終多數表決無法 「求同」,即最終多數表決相當於「求同」過程。
3. 為什麼不用全樣本訓練?
全樣本忽視了區域性樣本的規律,不利於模型泛化能力
4. 為什麼要隨機特徵?
隨機特徵保證基分類器的多樣性(差異性),最終整合的泛化效能可通過個體學習器之間的差異度而進一步提公升,從而提高泛化能力和抗噪能力
5. 需要剪枝嗎?
不需要6. rf與決策樹的區別?
(1)rf是決策樹的整合;
(2)rf中是「隨機屬性型」決策樹
隨機森林模型(RF)
隨機森林屬於整合學習 ensemble learning 中的bagging演算法。bagging bootstrap aggregating bagging即套袋法,其演算法過程如下 a 從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstraping的方法抽取n個訓練樣本 有放回的抽樣 ...
隨機森林模型調參方法
列印隨機森林學習器的預設引數配置 1 bootstrap true 2 criterion mse 3 max depth none 4 max features auto 5 max leaf nodes none 6 min impurity decrease 0.0 7 min impurit...
R語言 訓練隨機森林模型
隨機森林演算法涉及對樣本單元和變數進行抽樣,從而生成大量決策樹。對於每個樣本單元,所有決策樹依次對其進行分類,所有決策樹 類別中的眾數類別即為隨機森林所 的這一樣本單元的類別。假設訓練集中共有n個樣本單元,m個變數,則隨機森林演算法如下 1 從訓練集中隨機有放回地抽取n個樣本單元,生成大量決策樹 2...