bagging就是bootstrapaggregating,自舉匯聚法,亦稱為裝袋法。
與boosting的不同:
個人理解:由於bagging的每個分類器是同階的,則有
e (d
)=e(
1n∑i
=1ne
(di)
)=e(
di).
偏差.v
ar=v
ar(1
n∑i=
1nva
r(di
))=1
nvar
(di)
.方
差e(d)=e(\frac\sum_^ne(d_i))=e(d_i).\space\space偏差.\\ var=var(\frac\sum_^nvar(d_i))=\fracvar(d_i).\space \space方差
e(d)=e
(n1
i=1∑
ne(
di)
)=e(
di)
.偏差.
var=
var(
n1i
=1∑n
var
(di
))=n
1va
r(di
).方
差所以bagging的偏差與單個分類器很類似,但方差能夠大幅度降低,bagging依靠降低方差來降低誤差。
但對於boosting來說,因為每次權重的更新都是為了是決策結果更接近真實結果,故最終的偏差能夠大幅度降低,但是每個分類器是序列生成,相關性很大,不能有效降低方差,boosting依靠降低偏差來降低誤差。
隨機森林是基於bagging改進的一種演算法
一句話說就是民主決策應用到決策樹上,一般乙個資料集只能生成乙個決策樹,但是由於bagging的取樣方法,故可以有多顆決策樹,最終投票決定決策結果,步驟如下:假設有m個樣本,每個樣本都有k個屬性
隨機體現在第一和第二步上。
整合學習 隨機森林
隨機森林 random forest,簡稱rf 是bagging的乙個擴充套件變體。bagging在1996年由beriman提出,作為並行式整合學習方法中最著名的代表,利用自助取樣法。可取樣出t個含m個訓練樣本的取樣集,然後基於每個取樣集訓練出乙個基學習器,再將這些基學習器進行結合。這就是bagg...
整合學習 隨機森林
用多個模型來解決乙個問題,就是整合 怎麼樣得到乙個好的整合?需要個體盡可能的精確,而且它們的差異性,多樣性盡可能的大 按整合中個體的生成方式來說,可以分為兩大方法 一棵樹是決策樹,多棵樹是隨機森林,解決了決策樹泛化能力弱的缺點。因為決策樹是一棵樹,它是有乙個決策的可能性,如果是多棵樹,每棵樹都有乙個...
整合學習與隨機森林理解
什麼是整合學習?整合學習本身不是乙個單獨的機器學習演算法,而是通過構建並結合多個機器學習器來完成學習任務。也就是我們常說的 博採眾長 voting模型 對多個模型訓練某乙個資料集的結果進行投票,少數服從多數的原則,得到最優結果。voting模型的引數voting引數有兩種,預設是hard,直接投票判...