Bagging和Boosting 概念及區別

2022-06-06 21:33:08 字數 1605 閱讀 7990

--------文章**自liuwu265的部落格

bagging和boosting都是將已有的分類或回歸演算法通過一定方式組合起來,形成乙個效能更加強大的分類器,更準確的說這是一種分類演算法的組裝方法。即將弱分類器組裝成強分類器的方法。

首先介紹bootstraping,即自助法:它是一種有放回的抽樣方法(可能抽到重複的樣本)。

bagging即套袋法,其演算法過程如下:

a)從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstraping的方法抽取n個訓練樣本(在訓練集中,有些樣本可能被多次抽取到,而有些樣本可能一次都沒有被抽中)。共進行k輪抽取,得到k個訓練集。(k個訓練集之間是相互獨立的)

b)每次使用乙個訓練集得到乙個模型,k個訓練集共得到k個模型。(注:這裡並沒有具體的分類演算法或回歸方法,我們可以根據具體問題採用不同的分類或回歸方法,如決策樹、感知器等)

c)對分類問題:將上步得到的k個模型採用投票的方式得到分類結果;對回歸問題,計算上述模型的均值作為最後的結果。(所有模型的重要性相同)

其主要思想是將弱分類器組裝成乙個強分類器。在pac(概率近似正確)學習框架下,則一定可以將弱分類器組裝成乙個強分類器。

關於boosting的兩個核心問題:

1)在每一輪如何改變訓練資料的權值或概率分布?

通過提高那些在前一輪被弱分類器分錯樣例的權值,減小前一輪分對樣例的權值,來使得分類器對誤分的資料有較好的效果。

2)通過什麼方式來組合弱分類器?

通過加法模型將弱分類器進行線性組合,比如adaboost通過加權多數表決的方式,即增大錯誤率小的分類器的權值,同時減小錯誤率較大的分類器的權值。

而提公升樹通過擬合殘差的方式逐步減小殘差,將每一步生成的模型疊加得到最終模型。

bagging和boosting的區別:

1)樣本選擇上:

bagging:訓練集是在原始集中有放回選取的,從原始集中選出的各輪訓練集之間是獨立的。

2)樣例權重:

bagging:使用均勻取樣,每個樣例的權重相等

boosting:根據錯誤率不斷調整樣例的權值,錯誤率越大則權重越大。

3)**函式:

bagging:所有**函式的權重相等。

boosting:每個弱分類器都有相應的權重,對於分類誤差小的分類器會有更大的權重。

4)平行計算:

bagging:各個**函式可以並行生成

boosting:各個**函式只能順序生成,因為後乙個模型引數需要前一輪模型的結果。

這兩種方法都是把若干個分類器集成為乙個分類器的方法,只是整合的方式不一樣,最終得到不一樣的效果,將不同的分類演算法套入到此類演算法框架中一定程度上會提高了原單一分類器的分類效果,但是也增大了計算量。

下面是將決策樹與這些演算法框架進行結合所得到的新的演算法:

1)bagging + 決策樹 = 隨機森林

2)adaboost + 決策樹 = 提公升樹

3)gradient boosting + 決策樹 = gbdt

整合學習之bagging和boosting

整合演算法目標 整合演算法會考慮多個評估器的建模結果,彙總之後得到乙個綜合的結果,以此來獲取比單個模型更好的回歸或分類表現。整合學習 ensemble learning 通過構建並結合多個學習器來完成學習任務。一般結構為 先產生一組 個體學習器 再用某種策略將它們結合起來。但要獲得好的整合,個體學習...

機器學習(五) Bagging與Boosting

bagging bagging breiman,1996 通過訓練許多基本分類器進行投票分類,每種基本分類器 如決策樹,神經網路 通過投票的方式降低偏差增加方差。假設我們的任務是使用訓練資料學習乙個模型 q 這些公式的含義?boosting boosting freund shapire,1996 ...

Bagging和隨機森林

又稱袋裝 bagging 或者自助聚集 boot strap aggregating 是一種根據均勻概率分布從資料集中重複取樣 有放回 的技術。每個自助取樣的樣本集都和原資料集一樣大。在又放回的抽樣中,如果抽樣的個數和原資料集的大小一致,則自助樣本di d i中會有63 63 的原訓練資料,因為每乙...