bagging是並行式整合學習方法的典型代表,它直接基於自助取樣法。給定包含m個樣本的資料集,我們先隨機取出乙個樣本放入取樣中,再把該樣本放回初始資料集,使得下次取樣時該樣本仍有可能被選中。這樣,經過m次隨機取樣操作,我們得到含m個樣本的取樣集,初始訓練集中有的樣本在取樣集裡多次出現,有的則從未出現。初始訓練集中約有63.2%的樣本出現在取樣集中。
照這樣,我們可取樣出t個含m個訓練樣本的取樣集,然後基於每個取樣集訓練出乙個基學習器,再將這些基學習器進行結合。這就是bagging的基本流程。在對**輸出進行結合時,bagging通常對分類任務使用簡單投票法,對回歸任務使用簡單平均法。若分類**時出現兩個收到同樣票數的情形,則最簡單的做法是隨機選擇乙個,也可進一步考察學習器投票的置信度來確定最終勝者。
與標準adaboost只適用於二分類任務不同,bagging能不經修改地用於多分類、回歸等任務。
值得一提的是,自助取樣過程還給bagging帶來了另乙個優點:由於每個基學習器只使用了初始訓練集中約63.2%的樣本,剩下的36.8%的樣本可用作驗證集對泛化效能進行「包外估計」,為此,記錄每個基學習器的訓練樣本。不妨令
則bagging泛化誤差的包外估計為:
事實上,包外樣本還有許多其他用途,例如當基學習器是決策樹時,可使用包外樣本來輔助剪枝,或用於估計決策樹中各節點的後驗概率以輔助對零訓練樣本節點的處理;當學習器是神經網路時,可使用包外樣本來輔助早期停止以減小過擬合風險。
從偏差-方差的角度來看,bagging主要關注降低方差,因此它在不剪枝決策樹、神經網路等容易受樣本擾動的學習器上效果更為明顯。
Bagging與隨機森林演算法原理小結
bagging與隨機森林演算法原理小結 在整合學習 原理小結中,我們講到了整合學習有兩個流派,乙個是boosting派系,它的特點是各個弱學習器之間有依賴關係。另一種是bagging流派,它的特點是各個弱學習器之間沒有依賴關係,可以並行擬合。本文就對整合學習中bagging與隨機森林 演算法做乙個總...
Bagging與隨機森林演算法原理小結
在整合學習原理小結中,我們給bagging畫了下面一張原理圖。從上圖可以看出,bagging的弱學習器之間的確沒有boosting那樣的聯絡。它的特點在 隨機取樣 那麼什麼是隨機取樣?隨機取樣 bootsrap 就是從我們的訓練集裡面採集固定個數的樣本,但是每採集乙個樣本後,都將樣本放回。也就是說,...
整合學習 Bagging與隨機森林演算法原理小結
在整合學習原理小結中,我們講到了整合學習有兩個流派,乙個是boosting派系,它的特點是各個弱學習器之間有依賴關係。另一種是bagging流派,它的特點是各個弱學習器之間沒有依賴關係,可以並行擬合。本文就對整合學習中bagging與隨機森林演算法做乙個總結。隨機森林是整合學習中可以和梯度提公升樹g...