接自 bagging與隨機森林。
整合學習(ensemble learing)通過構建並結合多個學習器來完成學習任務,有時也被稱為多酚類器系統(multi-classifier system),基於委員會的學習(sommittee-baseslearing)等。
以下整合學習介紹來自西瓜書;
個人感覺頗有幾分卷積神經網路的味道,每個卷積核提取部分資訊,逐層向上傳遞,但是神經網路有著很多超引數。
從上述的介紹我們可以看出,如何產生「好而不同」的個體學習器,是整合學習研究的核心。
根據個體學習器的生成方式,整合學習可分為兩大類
1.個體學習器間存在強依賴關係,必須穿行生成的序列化方法(boosting)
2.個體學習器間不存在強依賴關係,可同時生成的並行化方法(bagging和隨機森林)
也可分為如下三類:
1.用於減少方差的bagging
2.用於減少偏差的boosting
3.用於提公升**結果的stacking
整合學習有兩個主要的問題需要解決:
第一是如何得到若干個個體學習器,
第二是如何選擇一種結合策略,將這些個體學習器集合成乙個強學習器。
目前來說,同質個體學習器的應用是最廣泛的,一般我們常說的整合學習的方法都是指的同質個體學習器。而同質個體學習器使用最多的模型是cart決策樹和神經網路。
從圖中可以看出,boosting演算法的工作機制是首先從訓練集用初始權重訓練出乙個弱學習器1,根據弱學習的學習誤差率表現來更新訓練樣本的權重,使得之前弱學習器1學習誤差率高的訓練樣本點的權重變高,使得這些誤差率高的點在後面的弱學習器2中得到更多的重視。然後基於調整權重後的訓練集來訓練弱學習器2.,如此重複進行,直到弱學習器數達到事先指定的數目t,最終將這t個弱學習器通過集合策略進行整合,得到最終的強學習器。
**boosting和bagging的區別在於;**是對加權後的資料利用弱分類器依次進行訓練。簡單來講bagging是並行的,而boosting是序列的,初始化時根據輸入訓練集的各樣本比例作為各樣本的初始權值,然後訓練乙個基學習器,然後根據基學習器的效果,提公升那些被誤判的樣本類的權值(全部樣本都**正確,則正確率為1),然後將調整後的樣本集進行訓練,之後的每乙個基學習器都要在上乙個學習器完成後並調整樣本權值後才可以進行訓練,因此是序列的,乙個接乙個訓練。
boosting是一族可將弱學習器提公升為強學習器的演算法,這族演算法的工作機制類似:
boosting系列演算法裡最著名演算法主要有adaboost演算法和提公升樹(boosting tree)系列演算法。提公升樹系列演算法裡面應用最廣泛的是梯度提公升樹(gradient boosting tree)。adaboost和提公升樹演算法的原理在後面的文章中會專門來講。
經過bagging和boosting兩種不同方式整合後,緊接對各個學習器生成的結果進行處理,得出乙個結果。而怎麼對各個
學習器的結果進行整合處理則是結合策略,總的來說3類:
3.1平均法
3.2投票法
3.3學習法
詳見。
整合學習 bagging和boosting
bagging boostrap aggregating 對樣本再取樣 boostrap 對每一重取樣的子樣本訓練乙個模型,最後取平均,所以是降低模型的variance。bagging比如random forest這種先天並行的演算法都有這個效果。boosting則是迭代演算法,每一次迭代都根據上一...
整合學習 Boosting和Bagging異同
整合學習 ensemble learning 有時也被籠統地稱作提公升 boosting 方法,廣泛用於分類和回歸任務。它最初的思想很簡單 使用一些 不同的 方法改變原始訓練樣本的分布,從而構建多個不同的分類器,並將這些分類器線性組合得到乙個更強大的分類器,來做最後的決策。也就是常說的 三個臭皮匠頂...
整合學習 boosting和bagging異同
整合學習 整合學習通過構建並結合多個學習器來完成學習任務.只包含同種型別的個體學習器,這樣的整合是 同質 的 包含不同型別的個體學習器,這樣的整合是 異質 的.整合學習通過將多個學習器進行結合,常可獲得比單一學習器顯著優越的泛化效能.根據個體學習器的生成方式,目前的整合學習方法大致可分為兩大類,即個...