隨機森林RF

2022-08-03 11:15:16 字數 969 閱讀 4697

隨機森林的一般步驟:

採用bagging的方法可以降低方差,但不能降低偏差

公式法分析bagging法模型的方差問題:

假設子資料集變數的方差為,兩兩變數之間的相關性為

所以,bagging法的方差:

由(4)式可得,bagging法的方差減小了

結論:bagging法的模型偏差與子模型的偏差接近,方差較子模型的方差減小。所以,隨機森林的主要作用是降低模型的複雜度,解決模型的過擬合問題。

隨機森林是指利用多棵決策樹對樣本進行訓練並**的一種演算法。也就是說隨機森林演算法是乙個包含多個決策樹的演算法,其輸出的類別是由個別決策樹輸出的類別的眾樹來決定的。在sklearn模組庫中,與隨機森林演算法相關的函式都位於整合演算法模組ensemble中,相關的演算法函式包括隨機森林演算法(randomforestclassifier)、袋裝演算法(baggingclassifier)、完全隨機樹演算法(extratreesclassifier)、迭代演算法(adaboost)、gbt梯度boosting樹演算法(gradientboostingclassifier)、梯度回歸演算法(gradientboostingregressor)、投票演算法(votingclassifier)。

最後總結一下隨機森林的優缺點:

一、優點:

1、對於大部分的資料,它的分類效果比較好。

2、能處理高維特徵,不容易產生過擬合,模型訓練速度比較快,特別是對於大資料而言。

3、在決定類別時,它可以評估變數的重要性。

4、對資料集的適應能力強:既能處理離散型資料,也能處理連續型資料,資料集無需規範化。

二、缺點:

1、對少量資料集和低維資料集的分類不一定可以得到很好的效果。

2、 計算速度比單個的決策樹慢。

3、 當我們需要推斷超出範圍的獨立變數或非獨立變數,隨機森林做得並不好。

隨機森林模型(RF)

隨機森林屬於整合學習 ensemble learning 中的bagging演算法。bagging bootstrap aggregating bagging即套袋法,其演算法過程如下 a 從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstraping的方法抽取n個訓練樣本 有放回的抽樣 ...

隨機森林(RF)與GBDT的異同

相同點 好吧,其實相同點不太好說,如果非要說的話,那就是它們都是由多棵樹組成,最終結果由這多棵樹一起決定 其實中間的細節還是不一樣 1 都是由多棵樹組成 2 最終的結果都是由多棵樹一起決定 不同點 1 從整合學習來說,rf屬於的bagging 稍微有點改變,增加了列抽樣 而gbdt屬於boostin...

如何理解隨機森林RF 隨機性的理解

1 rf 1.1 原理 提到隨機森林,就不得不提bagging,bagging可以簡單的理解為 放回抽樣,多數表決 分類 或簡單平均 回歸 基學習器之間屬於並列生成,不存在強依賴關係。引入了隨機特徵選擇 1 隨機選擇樣本 放回抽樣 隨機選擇特徵是指在樹的構建中,會從樣本集的特徵集合中隨機選擇部分特徵...