整合學習 Boosting和Bagging異同

2021-09-01 18:18:32 字數 1039 閱讀 9715

整合學習(ensemble learning)有時也被籠統地稱作提公升(boosting)方法,廣泛用於分類和回歸任務。它最初的思想很簡單:使用一些(不同的)方法改變原始訓練樣本的分布,從而構建多個不同的分類器,並將這些分類器線性組合得到乙個更強大的分類器,來做最後的決策。也就是常說的「三個臭皮匠頂個諸葛亮」的想法。

對於整合學習,我們面臨兩個主要問題:

針對上述問題,目前主流方法有三種:

在整合學習演算法中,用的最多,影響最廣的主要是bagging演算法和boosting演算法。baggging 和boosting都是模型融合的方法,可以將弱分類器融合之後形成乙個強分類器,而且融合之後的效果會比最好的弱分類器更好。下面將介紹bagging和boosting的相關概念以及區別。

在介紹bagging和boosting之前,首先介紹一下bootstraping,即自助法:它是一種有放回的抽樣方法(可能抽到重複的樣本)。它是非引數統計中一種重要的通過估計統計量方差進而進行區間估計的統計方法。

其核心思想和基本步驟如下:

bootstrap實質上是一種再抽樣過程,相對於其他方法,在小樣本時也具有較好效果。

在bagging的每輪隨機取樣中,訓練集中大約有36.8%的資料沒有被取樣集抽到。這大約36.8%的沒有被取樣到的資料,我們常常稱之為袋外資料(out of bag,oob)。這些資料沒有參與訓練集模型的擬合,因此可作為驗證集檢驗模型的效果。

其演算法過程如下:

(adaptive boosting),即自適應助推法。

boosting的演算法過程如下:

關於boosting的兩個核心問題:

樣例權重:

**函式:

平行計算:

bagging中的基本模型須為強模型(低偏差高方差),boosting中的基本模型為弱模型(低方差高偏差)。

面試問題:如何理解bagging是減少variance,而boosting是減少bias?

整合學習 bagging和boosting

bagging boostrap aggregating 對樣本再取樣 boostrap 對每一重取樣的子樣本訓練乙個模型,最後取平均,所以是降低模型的variance。bagging比如random forest這種先天並行的演算法都有這個效果。boosting則是迭代演算法,每一次迭代都根據上一...

整合學習 boosting和bagging異同

整合學習 整合學習通過構建並結合多個學習器來完成學習任務.只包含同種型別的個體學習器,這樣的整合是 同質 的 包含不同型別的個體學習器,這樣的整合是 異質 的.整合學習通過將多個學習器進行結合,常可獲得比單一學習器顯著優越的泛化效能.根據個體學習器的生成方式,目前的整合學習方法大致可分為兩大類,即個...

整合學習 bagging和boosting

bagging boostrap aggregating 對樣本再取樣 boostrap 對每一重取樣的子樣本訓練乙個模型,最後取平均,所以是降低模型的variance。bagging比如random forest這種先天並行的演算法都有這個效果。boosting則是迭代演算法,每一次迭代都根據上一...