原創 2023年08月19日 15:56:13
「同質」:由型別相同的學習器組合而成的整合學習器,每個學習器可稱為基學習器
「異質」:由型別不相同的學習器組合而成的整合學習器,每個學習器可稱為「元件學習器」
整合學習通過將多個學習器進行結合,常常可以獲得比單一學習器具有顯著優越的泛化效能。這個對於弱學習器尤為明顯。
如何獲得乙個好的整合學習器呢?每個個體學習器具有一定的準確性(每個學習器不能太壞)和多樣性(每個學習器之間存在差異)
整合學習方法可以分為兩大類:一是個體學習器間存在強依賴關係、必須序列生成序列化方法,代表有boosting演算法,二是個體學習器之間不存在強依賴關係、可同時生成的並行化方法,代表有bagging和隨機森林(random forest)
t,最終將這t
t個基學習器進行加權結合。這種演算法最具有代表的是adaboost演算法。
adaboost演算法可以理解是基於「加性模型」,即基學習器的線性組合。 h
(x)=
∑t=1
tαth
t(x)
h(x)=∑t=1tαtht(x)
參閱:(1)、bagging演算法
bagging演算法基本流程:採用自助取樣法,可以採用出t
t個含m
m個訓練樣本的取樣集,然後基於每個取樣集訓練出乙個基學習器,再將這些基學習器進行結合。
(2)、隨機森林(random forest)
隨機森林是bagging的乙個擴充套件變體,隨機森林是在以決策樹為基學習器構建bagging整合的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。具體的說,傳統決策樹在選擇劃分屬性時是在當前結點的屬性集合(假定有d
d個屬性)中選擇乙個最優屬性;而在隨機森林(rf)中,對基決策樹的每個結點,先從該結點的屬性集合中隨機選擇乙個包含k
k個屬性的子集,然後再從這個子集中選擇乙個最優屬性用於劃分。
可以參閱:
整合演算法,介紹完後,那麼如何使結合後的整合演算法明顯的優勢呢?也就是說如何將訓練出來的多個基學習器如何很好的結合在一起呢形成新的整合演算法呢?本書提出平均法、投票法、學習法三種結合策略。
多樣性,在前面已經提到過,乙個好整合演算法,需要訓練出來的基學習器具有很強的多樣性。
(1)誤差-分歧分解
(2)多樣性度量
(3)多樣性增強
在整合學習中需要有效地生成多樣性大的個體學習器。如果增強多樣性呢?一般思路是在學習過程中引入隨機性,常見的做法是對資料樣本、輸入屬性、輸出表示、演算法引數進行擾動。
機器學習 整合學習
1.理解什麼是整合學習 所謂 整合 是指同時構建多個學習器,這裡的學習器主要針對弱學習器。2.弱學習器主要是指泛化能力略優於隨機猜測的學習器,弱的相結合會得到更好的泛化能力。三個臭皮匠嘛!3那麼這些弱的摻雜起來為什麼會得到好的呢?主要思想就是投票法。所以呀我們要得到好的整合效果,必須要求個體學習器要...
機器學習 整合學習
一。概括 整合學習 ensemble learning 本身不是乙個單獨的機器學習演算法,而是通過構建並結合多個機器學習器來完成學習任務。可以用於分類問題整合 回歸問題整合 特徵選取整合 異常點檢測整合等等,可以說所有的機器學習領域都可以看到整合學習的身影。整合學習思想 對於訓練集資料,通過訓練若干...
機器學習 整合學習
1.1 整合學習概述 整合學習在機器學習演算法中具有較高的准去率,不足之處就是模型的訓練過程可能比較複雜,效率不是很高。目前接觸較多的整合學習主要有2種 基於boosting的和基於bagging,前者的代表演算法有adaboost gbdt xgboost 後者的代表演算法主要是隨機森林。1.2 ...