隨機森林演算法梳理

2021-09-16 19:49:40 字數 1115 閱讀 1608

隨機森林演算法梳理

整合學習,由多個基學習器組成,核心在於各學習器的多樣性和準確性。大致分為blending、bagging、boosting。

bagging演算法是通過bootstrap重取樣生成了多棵決策樹,然後根據投票(分類)或求平均(回歸)來給出最終輸出值,側重於減小方差(如果xi方差為xita方,則n個xi的方差為n分之xita方)。但如果生成m棵樹,其演算法複雜度也會提公升m倍,並且由於各個樹之間存在相關性,但m超過一定值時,樹之間也缺少了差異,**精度會根據 m 而飽和。

bagging演算法具體實現方法有,在乙個訓練集中多次有放回取樣,生成多個樣本集,同時訓練生成多個基學習器。而根據極限,有百分之三十多的樣本元素是不會被抽中的,因此天然的就劃分了訓練集和測試集。

隨機森林的訓練集也是通過bootstrap重取樣,但是每棵樹特徵也是通過隨機取樣,在總特徵集中隨機抽選乙個子特徵集,因此,不但樣本是隨機的,連每個節點變數(features)的產生都是隨機的,從而在bagging的基礎上達到了去相關性。森林中的每棵樹具有相同的分布,分類誤差取決於每一棵樹的分類能力和它們之間的相關性。

隨機森林的適用場景:資料維度相對低(幾十維),同時對準確性有較高要求時。因為不需要調參就可以達到不錯的效果,基本上不知道用什麼方法的時候都可以試一下。

結點規模:隨機森林不像決策樹,每一棵樹葉結點所包含的觀察樣本數量可能十分少。該超引數的目標是生成樹的時候盡可能保持小偏差。

樹的數量:在實踐中選擇數百棵樹一般是比較好的選擇。

**器取樣的數量:一般來說,如果我們一共有 d 個**器,那麼我們可以在回歸任務中使用 d/3 個**器數作為取樣數,在分類任務中使用 d^(1/2) 個**器作為抽樣。

優點:不易過擬合,可能比bagging和boosting更快。由於在每次劃分時只考慮很少的屬性,因此在大型資料庫上非常有效。有很好的方法來填充缺失值,即便有很大一部分資料缺失,仍能維持很高準確度。給出了變數重要性的內在估計,對於不平衡樣本分類,它可以平衡誤差。可以計算各例項的親近度,對於資料探勘、檢測離群點和資料視覺化非常有用。隨機森林方法被證明對大規模資料集和存在大量且有時不相關特徵的項來說很有用

缺點:在某些雜訊較大的分類和回歸問題上會過擬合。對於有不同級別的屬性的資料,級別劃分較多的屬性會對隨機森林產生更大的影響,所以隨機森林在這種資料上產生的屬性權值是不可信的。

隨機森林演算法梳理

構建並結合多個學習器來完成學習任務,有時也被稱為多分類器系統 multi classifier system 基於委員會的學習 cjommottee based learning 根據個體學習器的生成方式分為 個體學習器間存在強依賴關係 必須序列生成的序列方法。如 boosting 個體學習器間不存...

隨機森林演算法梳理

整合學習通過構建並結合多個學習器來完成學習任務。即先產生一組個體學習器,再用某種策略將它們結合起來。整合學習通過將多個學習器進行結合,常可獲得比單一學習器顯著優越的泛化效能。根據個體學習器的生成方式,目前整合學習方法大致可分為兩大類 即個體學習器間存在強依賴關係 必須序列化生成的序列化方法,以及個體...

隨機森林演算法梳理

1.整合學習的概念 整合學習通過構建並結合多個學習器來完成學習任務,有時也被成為多分類器系統,基於委員會的學習。整合學習是通過將多個學習器進行結合,常可獲得比單一學習器顯著優越的泛化的效能。如何去提高整合學習的效能,最好是個體學習器應該 好而不同 即個體學習器要有一定準確性,不能太壞,也不能太好。否...