整合學習(ensemble learning)通過構建並結合多學習器來完成學習任務,常可獲得比單一學習器顯著優越的泛化效能
要獲得好的整合,個體學習器應好而不同,即個體學習器要有一定的準確性,並且要有多樣性,即學習器間要有差異
根據個體學習器的生成方式, 目前的整合學習方法大致可分為兩大類
整合學習在各個規模的資料集上都有很好的策略
boosting 是一族可將弱學習器提公升為強學習器的演算法
先從初始訓練集訓練出乙個基學習器
基於調整後的樣本分佈來訓練下乙個基學習器;
重複進行, 直至基學習器數目達到事先指定的值 t,t,
t,最終將這 t
tt 個基學習器進行加權結合
從偏差-方差分解的角度看, boosting 主要關注降低偏差, 因此 boosting 能基於泛化效能相當弱的學習器構建出很強的整合
boosting 族演算法最著名的代表是 adaboost,是通過集中關注被已有分類器錯分的那些資料來獲得新的分類器
過程訓練資料中的每個樣本,並賦予其乙個權重,這些權重構成了向量d,權重都初始化成相等值
在訓練資料上訓練出乙個弱分類器並計算該分類器的錯誤率,然後在同一資料集上再次訓練弱分類器
在分類器的第二次訓練當中,將會重新調整每個樣本的權重,其中第一次分對的樣本的權重將會降低,而第一次分錯的樣本 的權重將會提高
計算出d之後,adaboost又開始進入下一輪迭代
adaboost演算法會不斷地重複訓練和調整權重的過程,直到訓練錯誤率為0或者弱分類器的數目達到使用者的指定值為止
bagging 是並行式整合學習方法最著名的代表
給定包含 m
mm 個樣本的資料集, 我們先隨機取出乙個樣本放入取樣集中, 再把該樣本放回初始資料集, 使得下次取樣時該樣本仍有可能被選中
經過 m
mm 次隨機取樣操作, 我們得到含 m
mm 個樣本的取樣集, 初始訓練集中有的樣本在取樣集裡多次出現, 有的則從未出現
取樣出 t
tt 個含 m
mm 個訓練樣本的取樣集, 然後基於每個取樣集訓練出乙個基學習器
將這些基學習器進行結合
在對**輸出進行結合時, bagging 通常對分類任務使用簡單投票法, 對回歸任務使用簡單平均法
隨機森林(random forest) 是 bagging 的乙個擴充套件變體
隨即森林在以決策樹為基學習器構建 bagging 整合的基礎上, 進一步在決策樹的訓練過程中引入了隨機屬性選擇
具體來說, 傳統決策樹在選擇劃分屬性時是在當前結點的屬性集合(假定有 d
dd 個屬性)中選擇乙個最優屬性
而在隨即森林中, 對基決策樹的每個結點, 先從該結點的屬性集合中隨機選擇乙個包含 k
kk個屬性的子集, 然後再從這個子集中選擇乙個最優屬性用於劃分
隨機森林的訓練效率常優於 bagging, 因為在個體決策樹的構建過程中, bagging 使用的是「確定型」決策樹, 在選擇劃分屬性時要對結點的所有屬性進行考察,而隨機森林使用的「隨機型」決策樹則只需考察乙個屬性子集
優點每個基學習器之間不存在很強的依賴性,為了提高整合的泛化能力在最終**結果時,需要一定的策略對多個結果進行結合
平均法對數值型輸出,最常見的結合策略是使用平均法,又可分為
一般而言,在個體學習器效能相差較大時宜使用加權平均法,而在個體學習器效能相近時宜使用簡單平均法
投票法對分類任務來說, 學習器將從類別標記集合 中**出乙個標記, 最常見的結合策略是使用投票法
學習法當訓練資料很多時, 一種更為強大的結合策略是使用「學習法」, 即通過另乙個學習器來進行結合
stacking 是學習法的典型代表
stacking
stacking是通過乙個元分類器或者元回歸器來整合多個分類模型或回歸模型的整合學習技術
基礎模型通常包含不同的學習演算法,利用整個訓練集做訓練
元模型將基礎模型的特徵作為特徵進行訓練
機器學習–整合學習(ensemble learning)
整合學習–bagging、boosting、stacking
機器學習-周志華
machine learning in action by peter harrington
隨機森林演算法及其實現(random forest)
機器學習 整合學習
1.理解什麼是整合學習 所謂 整合 是指同時構建多個學習器,這裡的學習器主要針對弱學習器。2.弱學習器主要是指泛化能力略優於隨機猜測的學習器,弱的相結合會得到更好的泛化能力。三個臭皮匠嘛!3那麼這些弱的摻雜起來為什麼會得到好的呢?主要思想就是投票法。所以呀我們要得到好的整合效果,必須要求個體學習器要...
機器學習 整合學習
一。概括 整合學習 ensemble learning 本身不是乙個單獨的機器學習演算法,而是通過構建並結合多個機器學習器來完成學習任務。可以用於分類問題整合 回歸問題整合 特徵選取整合 異常點檢測整合等等,可以說所有的機器學習領域都可以看到整合學習的身影。整合學習思想 對於訓練集資料,通過訓練若干...
機器學習 整合學習
1.1 整合學習概述 整合學習在機器學習演算法中具有較高的准去率,不足之處就是模型的訓練過程可能比較複雜,效率不是很高。目前接觸較多的整合學習主要有2種 基於boosting的和基於bagging,前者的代表演算法有adaboost gbdt xgboost 後者的代表演算法主要是隨機森林。1.2 ...