隨機森林的一般步驟:
採用bagging的方法可以降低方差,但不能降低偏差
公式法分析bagging法模型的方差問題:
假設子資料集變數的方差為,兩兩變數之間的相關性為
所以,bagging法的方差:
由(4)式可得,bagging法的方差減小了
結論:bagging法的模型偏差與子模型的偏差接近,方差較子模型的方差減小。所以,隨機森林的主要作用是降低模型的複雜度,解決模型的過擬合問題。
隨機森林是指利用多棵決策樹對樣本進行訓練並**的一種演算法。也就是說隨機森林演算法是乙個包含多個決策樹的演算法,其輸出的類別是由個別決策樹輸出的類別的眾樹來決定的。在sklearn模組庫中,與隨機森林演算法相關的函式都位於整合演算法模組ensemble中,相關的演算法函式包括隨機森林演算法(randomforestclassifier)、袋裝演算法(baggingclassifier)、完全隨機樹演算法(extratreesclassifier)、迭代演算法(adaboost)、gbt梯度boosting樹演算法(gradientboostingclassifier)、梯度回歸演算法(gradientboostingregressor)、投票演算法(votingclassifier)。
最後總結一下隨機森林的優缺點:
一、優點:
1、對於大部分的資料,它的分類效果比較好。
2、能處理高維特徵,不容易產生過擬合,模型訓練速度比較快,特別是對於大資料而言。
3、在決定類別時,它可以評估變數的重要性。
4、對資料集的適應能力強:既能處理離散型資料,也能處理連續型資料,資料集無需規範化。
二、缺點:
1、對少量資料集和低維資料集的分類不一定可以得到很好的效果。
2、 計算速度比單個的決策樹慢。
3、 當我們需要推斷超出範圍的獨立變數或非獨立變數,隨機森林做得並不好。
隨機森林模型(RF)
隨機森林屬於整合學習 ensemble learning 中的bagging演算法。bagging bootstrap aggregating bagging即套袋法,其演算法過程如下 a 從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstraping的方法抽取n個訓練樣本 有放回的抽樣 ...
隨機森林(RF)與GBDT的異同
相同點 好吧,其實相同點不太好說,如果非要說的話,那就是它們都是由多棵樹組成,最終結果由這多棵樹一起決定 其實中間的細節還是不一樣 1 都是由多棵樹組成 2 最終的結果都是由多棵樹一起決定 不同點 1 從整合學習來說,rf屬於的bagging 稍微有點改變,增加了列抽樣 而gbdt屬於boostin...
如何理解隨機森林RF 隨機性的理解
1 rf 1.1 原理 提到隨機森林,就不得不提bagging,bagging可以簡單的理解為 放回抽樣,多數表決 分類 或簡單平均 回歸 基學習器之間屬於並列生成,不存在強依賴關係。引入了隨機特徵選擇 1 隨機選擇樣本 放回抽樣 隨機選擇特徵是指在樹的構建中,會從樣本集的特徵集合中隨機選擇部分特徵...