在機器學習的有監督學習演算法中,我們的目標是學習出乙個穩定的且在各個方面表現都較好的模型,但實際情況往往不這麼理想,有時我們只能得到多個有偏好的模型(弱監督模型,在某些方面表現的比較好)。整合學習就是組合這裡的多個弱監督模型以期得到乙個更好更全面的強監督模型,整合學習潛在的思想是即便某乙個弱分類器得到了錯誤的**,其他的弱分類器也可以將錯誤糾正回來。整合方法是將幾種機器學習技術組合成乙個**模型的元演算法,以達到減小方差(bagging)、偏差(boosting)或改進**(stacking)的效果。
整合學習(ensemble learning)是一種機器學習框架,它會建立多個基模型,每個基模型被訓練出來解決同乙個問題,然後通過整合這些基模型的**結果來提公升整體表現。
現在有兩個問題:
(1) 訓練什麼樣的基模型,如何訓練
(2)用什麼方式組合不同型別的基模型,以獲得準確且穩健的模型?
根據解決上述兩問題的思路,整合學習分為三類:
(1)bagging(bootstrap aggregating,裝袋):bagging即套袋法,先說一下bootstrap,bootstrap也稱為自助法,它是一種有放回的抽樣方法,目的為了得到統計量的分布以及置信區間,選擇相同的強學習器作為基模型,每個基模型的訓練資料不是全部訓練資料,而是通過對全部資料有放回取樣產生的隨機子集,**時各個基模型等權重投票。屬於一種並行的訓練結構。
(2)boosting:選擇相同的弱分類器作為基模型,依次訓練基模型,每個基模型的訓練集根據前一次模型的**結果進行調整,重點關注被前面模型錯誤**的樣本,以逐步修正基模型的誤差。最終的**結果通過基模型的線性組合產生。是一種序列訓練結構。
(3)stacking:對不同型別模型的融合。對每個基模型進行訓練,並將**結果作為新的特徵,對新的特徵構成的訓練集進行一次訓練,最終的**結果由其產生。
針對上述問題,目前主流方法有三種:
1.boosting方法:包括adaboosting,提公升樹(代表是gbdt), xgboost等
2.bagging方法:典型的是隨機森林
3.stacking演算法
bagging和stacking中的基本模型須為強模型(低偏差高方差),boosting中的基本模型為弱模型(低方差高偏差)。
整合學習方法綜述
整合學習即essemble技術,將單個學習器通過一定規則聯合,提高學習器的整體表現。當所有單個學習器都是同一型別時,即是同質的,每個學習器成為基學習器 當單個學習器不同時,則稱為異質的,不存在基學習器的說法。當學習器之間強關聯,存在一定的依賴關係,表現為序列,這類演算法的代表為boosting,其中...
機器學習綜述
機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。基本目標是學習乙個x y的函式 對映 來做分類或者回...
稀疏學習綜述
稀疏學習是近年來機器學習和模式識別領域的乙個研究熱點,在本文中,我們給出了稀疏學習綜述。稀疏學習已經應用到機器學習和模式識別的很多子領域,包括分類 聚類和子空間學習等,本文側重在結構化稀疏學習在特徵選擇方法中的應用 特徵選擇,是許多模式識別任務中乙個重要的成分。在這些任務中,人經常面臨高維資料。特徵...