強可學習與弱可學習
而boost就是將弱可學習方法提公升為強可學習方法的途徑,所以叫做提公升方法。提公升方法就是從弱可學習演算法出發,反覆學習,得到一系列弱分類器,然後組合這些弱分類器,構成乙個強分類器。 根據以上描述,可以看到有兩個問題需要考慮:
在每一輪學習中,訓練資料的權重值如何確定?
組合強分類器時,線性組合的係數如何確定?
演算法輸入:訓練資料集
初始化訓練資料的權值分布:
對於m=1,2,3...m a). 使用具有權值分布dm的訓練資料集學習,得到基本分類器gm(x)→ b). 計算gm(x)在訓練資料集上的誤差率:
構建基本分類器的線性組合並得到最終分類器:
從以上演算法可以看到: 最開始步驟1,我們假設了樣本具有均勻的權重分布,它將產生乙個基本分類器g1(x)。 步驟2是乙個m從1到m的迴圈過程,每一次迴圈都可以產生乙個弱分類器。
對於b).可以看到,分類誤差率實際上就是被誤分類點的權值之和。
對於d).可以看到,每乙個樣本的權值ω,都與它原來的標籤yi以及**的標籤gm(xi)有關,當**正確即它們同號時,exp指數是乙個負值,這樣就會減小原來樣本點的權重;當**不正確即它們異號時,exp指數是乙個正值,它會增加當前樣本點的權重。這正印證了我們需要使被誤分類樣本的權值更大這個事實。
步驟3中要注意一點的是,所有αi之和並不是等於1的,其僅表示對應分類器的重要性。 f(x)的符號決定了例項x的類,它絕對值的大小,表示分類的確信度
提公升樹提公升樹是以分類樹或者回歸樹為基本分類器的提公升方法,它被廣泛的應用,例如有名的梯度提公升樹gbdt,以及另一篇博文分析的xgboost。 提公升樹也是提公升方法的一種,所以它的模型還是加法模型,只是選擇了決策樹作為基函式。則提公升樹的模型為$latex f_(x)=\sum_^ t(x:\theta_)$。 對於不同的應用情況,模型可以採用不同的損失函式。對於回歸問題,可以採用平方誤差損失,對於分類問題,可以採用指數損失函式,這裡的損失函式一般都只包含了經驗損失,並未關注結構風險,這是乙個缺點。
梯度提公升樹演算法
梯度提公升樹利用損失函式的負梯度在當前模型的值,即$latex -[\frac))}})}]_ (x)}$,作為回歸問題提公升樹演算法中的殘差的近似值而擬合回歸樹。 關於提公升樹,可參考xgboost博文。
統計學習方法 提公升方法
在分類問題中,通過改變訓練樣本的權重,學習多個分類器,並將這些分類器線性組合,提高分類的效能 1.1 提公升方法adaboost演算法 1.1.1 提公升方法的基本思路 對於乙個複雜任務來說,將多個專家的判斷進行適當的綜合得出的判斷比任何乙個專家單獨的判斷好。三個臭皮匠頂個諸葛亮 強可學習 在概率近...
《統計學習方法》 提公升方法
提公升方法的核心思想是在給定基礎模型的基礎上,通過不斷調整樣本的權重分布訓練一系列的模型,盡最大可能的減少訓練誤差,最後將多個模型按照一定的權重係數進行組合得到最終的模型。通過採用多模型結合的方式,可以提公升模型的穩定性,使模型更準確。pac理論 概率近似正確理論 主要是論證了在概率學習框架下,乙個...
筆記 《統計學習方法》 8 提公升方法
提公升 boosting 要解決的兩個問題 1 每一輪如何改變訓練資料的權值和概率分布 2 弱分類器如何組合成乙個強分類起 adaboost的做法 1 提高被前一輪弱分類器錯誤分類樣本的權值,而降低哪些被正確分類樣本的權值 2 弱分類器的組合,採用加權多數表決的方法 4.adaboost演算法 略 ...