提公升方法的核心思想是在給定基礎模型的基礎上,通過不斷調整樣本的權重分布訓練一系列的模型,盡最大可能的減少訓練誤差,最後將多個模型按照一定的權重係數進行組合得到最終的模型。通過採用多模型結合的方式,可以提公升模型的穩定性,使模型更準確。
pac理論(概率近似正確理論)主要是論證了在概率學習框架下,乙個概念是強可學習的充分必要條件是這個概念是弱可學習的。即對於乙個問題,如果能夠發現解決該問題的"弱學習演算法",即該問題是弱可學習的,那麼該問題也必定有"強學習演算法"存在,即該問題也必定是強可學習的。
弱可學習:弱可學習是指,對於乙個概念,如果存在乙個多項式的學習演算法能夠學習他,學習的正確率僅比隨機猜測略好,那麼這個概念就是弱可學習的。
強可學習:強可學習是指,對於乙個概念,如果存在乙個多項式的學習演算法能夠學習他,並且正確率很高,那麼這個概念就是強可學習的。pac理論實際上論證了提公升方法的可靠性,即可以從乙個弱分類器通過一定的演算法將其變成乙個強分類器,這也是整合類模型的通用指導思想。各型別整合模型的區別只是在於如何從基礎的弱分類模型不斷向強分類模型改進。
【ml學習筆記】8:pac可能近似正確
30分鐘了解pac學習理論——計算學習理論第一講
adaboost演算法通過不斷更新樣本的權重分布,使得在上乙個基礎模型中誤分類大的資料在下輪的模型訓練中佔據更大權重,由此得到一系列的基礎模型,再依據基礎模型的對應權重,將全部基礎模型組合起來得到最終的決策模型的一種演算法。
輸入:訓練資料集t=,其中xi
∈x⊆r
n,y∈
y=;若
學習演算法
t=\,其中x_i\in \mathcal \subseteq r^n,y\in \mathcal=\;若學習演算法
t=,其中x
i∈x
⊆rn,
y∈y=
;若學習
演算法
輸出:最終分類器g(x)g(x)
g(x)
(1) 初始化訓練資料的權值分布d1=adaboost演算法描述的是一大類的提公升演算法,應用到具體的實際中,依據選用的基礎模型不同,有不同的具體演算法。(ω11,
...,
ω1i,
...,
ω1n)
,ω1i
=1n,
i=1,
2,3,
...,
nd_1=(\omega_,...,\omega_,...,\omega_),\omega_=\frac,i=1,2,3,...,n
d1=(ω
11,
...,
ω1i
,...
,ω1n
),ω
1i=
n1,
i=1,
2,3,
...,
n即在初始化資料集時先假定是均勻分布,每個樣本的權重相同。
(2) 對於m=1
,2,.
..
mm=1,2,...m
m=1,2,
...m
(3) 組合基本模型,得到最終決策模型g(x
)=si
gn(∑
m=1m
αmgm
(x))
g(x)=sign(\sum_^\alpha_m g_m(x))
g(x)=s
ign(
m=1∑
mαm
gm
(x))
提公升樹(boosting tree)
提公升樹是以分類樹或者回歸樹為基本分類器,以加法模型為基礎模型,通過前向分步演算法求解的提公升方法的應用。針對分類問題採用二叉分類樹,針對回歸問題採用二叉回歸樹,通過不斷的求解經驗風險最小化(損失函式最小化)得到一系列的基礎模型,最後將不同模型進行線性組合得到將最終決策模型。
梯度提公升樹(gbdt)
梯度提公升樹是在提公升樹的基礎上,將提公升樹中每一步需要擬合的殘差用損失函式l(y
,f(x
))
l(y,f(x))
l(y,f(
x))在當前模型fm(
x)
f_m(x)
fm(x)
下的梯度的負值來代替,即用−[∂
l(y,
f(xi
))∂f
(xi)
]-[\frac]
−[∂f(x
i)∂
l(y,
f(xi
))
]來估計提公升樹中的殘差。
統計學習方法 提公升方法
在分類問題中,通過改變訓練樣本的權重,學習多個分類器,並將這些分類器線性組合,提高分類的效能 1.1 提公升方法adaboost演算法 1.1.1 提公升方法的基本思路 對於乙個複雜任務來說,將多個專家的判斷進行適當的綜合得出的判斷比任何乙個專家單獨的判斷好。三個臭皮匠頂個諸葛亮 強可學習 在概率近...
統計學習方法8 提公升方法
先初始化所有輸入的輸出結果,假設為a。計算實際的結果與a差值,累加所有樣本的這個差值。得到損失函式。求出使該損失函式最小的a。在確定了a的基礎上,將所有樣本輸出值與a做差,得到殘差1,作為新的樹的樣本依據。初始化第二顆樹的輸出結果為b,以得到的殘差1為基礎,將b與殘差1做差並類和,得到這一次的損失函...
筆記 《統計學習方法》 8 提公升方法
提公升 boosting 要解決的兩個問題 1 每一輪如何改變訓練資料的權值和概率分布 2 弱分類器如何組合成乙個強分類起 adaboost的做法 1 提高被前一輪弱分類器錯誤分類樣本的權值,而降低哪些被正確分類樣本的權值 2 弱分類器的組合,採用加權多數表決的方法 4.adaboost演算法 略 ...