整合學習演算法有兩個大類:乙個是boosting,代表演算法是adaboost;另乙個是bagging,本文介紹的隨機森林是它的乙個變種。
bagging也叫自舉匯聚法(bootstrap aggregating),它在原始資料集上通過有放回抽樣重新選出
t 個包含
m條資料的新資料集來訓練分類器。也就是說這些新資料集是允許重複的。使用訓練出來的分類器集合來對新樣本進行分類,然後用多數投票或者對輸出求均值的方法統計所有分類器的分類結果,結果最高的類別即為最終標籤。
隨機森林是bagging的乙個變體,它在以決策樹為基學習器構建bagging整合的基礎上,在決策樹的訓練中引入隨機屬性選擇。
傳統的決策樹在選擇劃分屬性時在當前結點的屬性集合上選擇乙個最優劃分屬性(假設有
d 個屬性),而在隨機森林中,對決策樹的每個節點,首先從該結點的屬性集合中隨機選擇乙個包含
k個屬性的子集,然後再從這個子集中選擇乙個最優屬性進行劃分。這裡的引數
k 控制著隨機性程度:如果k=
d,那麼,基決策樹的構建與傳統決策樹相同;如果k=
1 ,則是隨機選擇乙個屬性用於劃分;一般情況下推薦k=
log2
d 。
在當前的很多資料集上,相對其他演算法有著很大的優勢,表現良好。
它能夠處理很高維度的資料,並且不用做特徵選擇。
在訓練完後,它能夠給出哪些feature比較重要。
在建立隨機森林的時候,對generlization error使用的是無偏估計,模型泛化能力強。
訓練速度快,容易做成並行化方法。
在訓練過程中,能夠檢測到feature間的互相影響。
實現比較簡單。
對於不平衡的資料集來說,它可以平衡誤差。
如果有很大一部分的特徵遺失,仍可以維持準確度。
隨機森林已經被證明在某些噪音較大的分類或回歸問題上會過擬合。
對於有不同取值的屬性的資料,取值劃分較多的屬性會對隨機森林產生更大的影響,所以隨機森林在這種資料上產出的屬性權值是不可信的。
機器學習(五) Bagging與Boosting
bagging bagging breiman,1996 通過訓練許多基本分類器進行投票分類,每種基本分類器 如決策樹,神經網路 通過投票的方式降低偏差增加方差。假設我們的任務是使用訓練資料學習乙個模型 q 這些公式的含義?boosting boosting freund shapire,1996 ...
機器學習篇 bagging
bagging 隨機森林是ensemble整合演算法之一 1 模型 整合演算法,弱分類器或基模型一般為cart樹,可分類可回歸,判別模型 2 策略 bagging演算法對樣本重取樣,分別構造決策樹,並由各決策樹的分類結果進行投票或取平均 隨機森林 rf 與bagging的區別是除了樣本重取樣外還要特...
機器學習(十) 隨機森林與Bagging
確保了解決策樹,決策樹 子樹 從原資料集中有放回的選擇相同數量 和原資料集數量相同 樣本,並選擇部分屬性,以選擇的樣本和屬性進行cart決策樹構建 隨機森林就是並行的構建t個子樹的過程。構建完畢後,對於乙個 數,使用構建好的t個子樹進行 取最多的 結果作為隨機森林的 結果。完畢,以上就是隨機森林的梗...