隨機森林和Adaboos

2021-10-03 22:17:06 字數 913 閱讀 6360

隨機森林:隨機森林是利用隨即的方式將許多決策樹結合成乙個森林,每個決策樹在分類的時候決定測試樣本的最終類別。

在bagging策略的基礎上進行修改後的一種演算法

從樣本集中用bootstrap取樣選出n個樣本;

從所有屬性中隨機選擇k個屬性,選擇出最佳分割屬性作為節點建立決策樹;

重複以上兩步m次,即建立m可決策樹;

這m個決策樹形成隨機森林,通過投票表決結果決定資料屬於哪一類;

rf演算法在實際應用中具有比較好的特性,應用也比較廣泛,主要應用在:分類,回歸,特徵轉換,異常點檢測等。

rf的主要優點:

訓練可以並行化,對於大規模樣本的訓練具有速度的優勢;

由於進行隨機選擇決策樹劃分特徵列表,這樣在樣本維度比較高的時候,仍然具有比較高的訓練效能;

給以給出各個特徵的重要性列表;

由於存在隨機抽樣,訓練出來的模型方差小,泛化能力強;

rf實現簡單;

對於部分特徵的缺失不敏感。

rf的主要缺點:

在某些噪音比較大的特徵上,rf模型容易陷入過擬合;

取值比較多的劃分特徵對rf的決策會產生更大的影響,從而有可能影響模型的效果

adaboost演算法:adaboost是一種迭代演算法,其核心思想是針對同乙個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成乙個更強的最終分類器(強分類器)。

adaboost演算法本身是通過改變資料分布來實現的,他根據每次訓練集中每個樣本分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權值。將修改過的權值的資料送給下一層分類器進行訓練,最後將每次得到的分類器融合起來,最為最後的決策分類器;

隨機森林和gbdt結合 隨機森林和GBDT的學習

前言 提到森林,就不得不聯想到樹,因為正是一棵棵的樹構成了龐大的森林,而在本篇文章中的 樹 指的就是decision tree 決策樹。隨機森林就是一棵棵決策樹的組合,也就是說隨機森林 boosting 決策樹,這樣就好理解多了吧,再來說說gbdt,gbdt全稱是gradient boosting ...

Bagging和隨機森林

又稱袋裝 bagging 或者自助聚集 boot strap aggregating 是一種根據均勻概率分布從資料集中重複取樣 有放回 的技術。每個自助取樣的樣本集都和原資料集一樣大。在又放回的抽樣中,如果抽樣的個數和原資料集的大小一致,則自助樣本di d i中會有63 63 的原訓練資料,因為每乙...

隨機森林和Extra Trees

from sklearn.ensemble import randomforestclassifier rf clf randomforestclassifier n estimators 500,random state 666,oob score true n jobs 1 rf clf.fit...