目的是讓最終的結果越好
bagging訓練多個分類器然後取平均(並行的訓練平行的分類器,比如隨機森林)
f (x
)=1m
∑m=1
mfm(
x)
f(x)=\frac\sum_^f_m(x)
f(x)=m
1∑m
=1m
fm(
x)
booting從弱學習器開始強化,通過加權來進行訓練
f m(
x)=f
m−1+
argm
inh∑
i=1n
l(yi
,fm−
1(xi
)+h(
xi))
f_m(x)=f_+argmin_h\sum_l(y_i,f_(x_i)+h_)
fm(x)
=fm−
1+a
rgmi
nh∑
i=1
nl(y
i,f
m−1
(xi
)+h(
xi)
)
stackingbagging聚合多個分類或回歸模型(可以分階段做)
可以用乙個資料集,每棵樹隨機各取60%的資料來進行分別訓練
讓每棵樹都有它的差異性
一般會選擇,100棵樹左右。
它能夠處理高維度(feature很多)的資料,並不用特徵選擇
在訓練完後,它能夠給出哪些feature比較重要
比如abcd四個特徵,破壞掉b 產生乙個b』 使用abcd ab』cd分別訓練。比較結果boosting容易做成並行化方法,速度比較快
可以進行視覺化展示,便於分析
序列學習,樹相加
f m(
x)=f
m−1+
argm
inh∑
i=1n
l(yi
,fm−
1(xi
)+h(
xi))
f_m(x)=f_+argmin_h\sum_l(y_i,f_(x_i)+h_)
fm(x)
=fm−
1+a
rgmi
nh∑
i=1
nl(y
i,f
m−1
(xi
)+h(
xi)
)先算a樹 然後b樹計算a與實際值得殘差 與結果更近一步,再經過c
典型代表
adaboost xgboost
adaboost 根據前一次的分類效果調整資料權重,分類器權重越大,越好
stacking
使用一堆直接上得出結果後,再訓練乙個分類器
整合演算法 隨機森林
這一節,我們來聊聊隨機森林演算法,雖然我對這些演算法的理解也不是很深,但還是決定寫一寫。首先,整合演算法是指多種演算法的集合,因為單一的演算法在處理某種問題時,可能會有所限制,整合演算法會綜合多種演算法的結果,得到乙個均值,效果往往會比單一演算法好一些。前面我們討論過決策樹,那隨機森林就不難理解,它...
整合演算法(隨機森林) 知識整理
boosting模型 stacking模型 小結該方法不太適合,使用這種方法很難去隨機讓模型的泛化能力變強。具體介紹之後補充 該模型典型代表有adaboost,xgboost後者在以後哦的資料分析中具體說明。adaboost會根據前一次的分類效果調整資料的權重 最終結果 每個分類器根據自身的準確性來...
整合學習3 隨機森林(RF)與 bagging
隨機森林大家都不會陌生,相對於xgb來講,方法很簡單,沒有那麼多複雜的公式,其主要是一種思想 bagging,關於抽樣 統計的。隨機森林也是決策樹家族的一員,了解隨機森林也得從決策樹開始,感興趣的可以參考這篇文章 決策樹 id3 c4.5 cart演算法 以及 整合學習1 xgboost 為什麼要出...