(隨機森林的構建有兩個方面:行取樣和列取樣——樣本的隨機選取,以及待選特徵的隨機選取。
即樣本的隨機:從樣本集中用bootstrap隨機選取n個樣本;
特徵的隨機:從所有屬性中隨機選取k個屬性,選擇最佳分割屬性作為節點建立cart決策樹)
(5)訓練速度快,可以得到變數重要性排序
(6)實現比較簡單,高度並行化,易於分布式實現
3.缺點:
(1)忽略屬性之間的相關性
(2)隨機森林在某些噪音較大的分類或回歸問題上會過擬合;
(3)對於有不同取值的屬性的資料,取值劃分較多的屬性會對隨機森林產生更大的影響。(如何解決?可以採用資訊增益比)
(4)當隨機森林中的決策樹個數很多時,訓練時需要的空間和時間會較大
4. 隨機森林的構建過程:
(1)從原始訓練集中使用bootstraping方法隨機有放回取樣選出m個樣本,共進行n_tree次取樣,生成n_tree個訓練集
(2)對於n_tree個訓練集,我們分別訓練n_tree個決策樹模型
(3)對於單個決策樹模型,假設訓練樣本特徵的個數為n,那麼每次**時根據資訊增益/資訊增益比/基尼指數選擇最好的特徵進行**
(4)每棵樹都一直這樣**下去,直到該節點的所有訓練樣例都屬於同一類。在決策樹的**過程中不需要剪枝
(區別碎碎念:
關於樹模型和線性模型有什麼區別呢?其中最重要的是,樹形模型是乙個乙個特徵進行處理,而線性模型是所有特徵給予權重相加得到乙個新的值。
決策樹與邏輯回歸的分類區別也在於此,邏輯回歸是將所有特徵變換為概率後,通過大於某一概率閾值的劃分為一類,小於某一概率閾值的為另一類;而決策樹是對每乙個特徵做乙個劃分。另外邏輯回歸只能找到線性分割(輸入特徵x與logit之間是線性的,除非對x進行多維對映),而決策樹可以找到非線性分割。
而樹形模型更加接近人的思維方式,可以產生視覺化的分類規則,產生的模型具有可解釋性(可以抽取規則)。
樹模型擬合出來的函式其實是分區間的階梯函式。
)
隨機森林小結
隨機森林的構建有兩個方面 行取樣和列取樣 樣本的隨機選取,以及待選特徵的隨機選取。即樣本的隨機 從樣本集中用bootstrap隨機選取n個樣本 特徵的隨機 從所有屬性中隨機選取k個屬性,選擇最佳分割屬性作為節點建立cart決策樹 5 訓練速度快,可以得到變數重要性排序 6 實現比較簡單,高度並行化,...
隨機森林演算法原理小結
整合學習原理 adaboost 演算法原理 整合學習有兩個流派,乙個是boosting,特點是各個弱學習器之間有依賴關係 乙個是bagging,特點是各個弱學習器之間沒依賴關係,可以並行擬合。在整合學習原理總結中,給出bagging的原理圖。1 bagging的特點 隨機取樣 隨機採集跟訓練集個數m...
Bagging與隨機森林演算法原理小結
bagging與隨機森林演算法原理小結 在整合學習 原理小結中,我們講到了整合學習有兩個流派,乙個是boosting派系,它的特點是各個弱學習器之間有依賴關係。另一種是bagging流派,它的特點是各個弱學習器之間沒有依賴關係,可以並行擬合。本文就對整合學習中bagging與隨機森林 演算法做乙個總...