通俗理解:乙個演算法的能力是有限的,把多個演算法模型整合在一起boosting主要思想是將弱學習器組裝成乙個強學習器(通過加法模型將弱分類器進行線性組合)訓練集資料在學習過程中,通常根據它們的上一輪的分類準確率給予不同的權重,加弱學習器之後,資料通常會被重新加權,來強化對之前分類錯誤資料點的分類(每輪學習完,分類錯誤的,增加樣本的權重,降低弱學習器的權重)個體學習器之間存在強依賴關係,一系列個體學習器都需要序列生成,然後使用組合策略得到最終模型給定乙個大小為n的資料集,從中均勻的有放回的選擇m個大小為n的子集作為新的訓練集,在m個訓練集上使用分類、回歸等演算法,得到m個模型,通過平均值、投票等方法產生**結果。
可以看出bagging主要通過樣本的擾動來增加基學習器之間的多樣性,因此bagging的基學習器應為那些對訓練集十分敏感的不穩定學習演算法,例如:神經網路與決策樹等.不同於adaboost的是,bagging可以十分簡單地移植到多分類、回歸等問題。總的說起來則是:adaboost關注於降低偏差,而bagging關注於降低方差。
① bagging通過降低基分類器的方差,改善了泛化誤差
② 其效能依賴於基分類器的穩定性;如果基分類器不穩定,bagging有助於降低訓練資料的隨機波動導致的誤差;如果穩定,則整合分類器的誤差主要由基分類器的偏倚引起
③ 由於每個樣本被選中的概率相同,因此bagging並不側重於訓練資料集中的任何特定例項
個體學習器之間不存在強依賴關係,一系列個體學習器可以並行生成,然後使用組合策略得到最終模型baggingboosting
樣本選擇
採用boostrap隨機有放回抽樣
每一輪訓練集是不變的,改變的是樣本的權重
樣本權重
均勻取樣,每個樣本權重相等
根據錯誤率調整樣本權重,錯誤率越大樣本權重越小
**函式
所以函式模型權重相等
誤差小的權重大
各個**模型平行計算
各個**模型按順序迭代生成
帶權重訓練集 通過弱學習器訓練,然後更新權重(誤差大的權重變大),迭代下去,最後組成強學習器,學習器誤差小的權重大前乙個弱分類器分錯的樣本的權重會得到加強,加權後的全體樣本再拿來訓練下乙個弱分類器,知道達到某個預定的足夠小的誤差或達到預先指定的最大迭代次數演算法描述演算法思想
對於回歸問題的提公升樹,只需要簡單的擬合當前模型的殘差
對於分類問題的提公升樹,只需要新增樹擬合y值即可達到損失最小
在提公升樹的學習過程中,當損失函式是平方損失和指數損失的時候比較好優化,對於其他損失函式的太好優化
gbdt擬合的目標值是乙個負梯度(連續值),因此學習器只有cart回歸樹gbdt優缺點能做2分類、多分類和回歸,整合了很多棵決策樹,可以減少過擬合結合策略:隨機森林還起到特徵選擇的作用當cart是分類樹時,採用gini係數作為節點**的依據當cart是回歸樹時,採用樣本最小方差作為節點**依據隨機森林優缺點優點缺點
像決策樹一樣,rf可以處理離散特徵和連續特徵,資料無需規範化,能擴充套件到多分類,不需要做特徵縮放,能捕獲非線性關係和特徵間的影響
決策樹個數很多時,訓練時需要的時間和空間比較大
具有較高的準確率,不容易過擬合
rf有好多不好解釋的地方,類似黑盒模型
隨機性的引入,使得rf不容易過擬合,有很好的抗雜訊能力
能處理高緯度資料,並且不用做特徵選擇
可以得到變數的重要性排序
構建過程
rf特徵選擇時的優缺點
優點缺點
高效,更簡單的分割平面,更短的訓練**時間
計算代價大
泛化能力強,無用特徵被移除,達到降維的效果
如果特徵沒有選好,會影響模型精度
可解釋性增強
線性模型:通過oob誤差選擇特徵非線性模型:通過不純度降低選擇特徵
整合學習Ensemble的三種學習方式
並行方式 在原始資料集上通過有放回抽樣重新選出k個新資料集來訓練分類器 使用訓練出來的分類器的集合來對新樣本進行分類 用的多數投票或者對輸出求均值的方法統計所有分類器的分類結果 疑問 1.訓練和驗證過程 使用何種方式確定 結果?分類器的取優過程?2.測試集的測試過程使用均值或者多數規則?3.有放回的...
深度概念 模型整合 Ensemble 解析
曾經聽過一句話,feature為主,ensemble為後 feature決定了模型效果的上限,而ensemble就是讓你更接近這個上限。ensemble講究 好而不同 不同是指模型的學習到的側重面不一樣。舉個直觀的例子,比如數學考試,a的函式題做的比b好,b的幾何題做的比a好,那麼他們合作完成的分數...
機器學習 整合學習
1.理解什麼是整合學習 所謂 整合 是指同時構建多個學習器,這裡的學習器主要針對弱學習器。2.弱學習器主要是指泛化能力略優於隨機猜測的學習器,弱的相結合會得到更好的泛化能力。三個臭皮匠嘛!3那麼這些弱的摻雜起來為什麼會得到好的呢?主要思想就是投票法。所以呀我們要得到好的整合效果,必須要求個體學習器要...