adaboost 用分錯的資料樣本來識別問題,通過調整分錯的資料樣本的權重來改進模型。
偏差指的是**值的期望與真實值之間的差距,偏差越大, **值越偏離真實資料的標籤。
方差描述的是**值的變化範圍,離散程度,也就是離**值期望的距離,方差越大,資料的分布越分散。
1.bagging 演算法對資料重取樣,然後在每個樣本集訓練出來的模型上取平均值。 假設有 n個模型(注意:這裡的n就是樣本的n個模型),方差記為?^2,兩兩變數之間的相關性是0 < ? < 1,則?個隨機變數均值的方差為:
當不同模型重取樣資料之間的相關性係數ρ越來越小,即越不相關,則上式約等於?^2/n,也就是說方差變為了原來的1/n
2.bagging 整體模型的期望近似於單模型的期望,這意味整體模型的偏差也與單模型的偏差近似。所以 bagging 不能減少偏差。
公式太難敲了,直接在筆記本上寫了一遍,這裡就截圖了。
總結一下演算法的主要步驟:
1 初始化訓練資料權值分布d1
注意是每個樣本乙個權重哦,所有權重之和為1,初始化一般就是權重均勻分布。
2 根據權值分布dm,計算權值dm+1。也就是如何從第m個模型,推導到第m+1個模型。
(a)先使用具有dm的資料集學習,得到第m個分類器的分類結果
注意: 其實我覺得這一步可以做的操作很多,因為這是簡單的分類器,所以應該什麼分類器都可以用吧。怎麼用是個問題。
(b)然後計算誤分率,就是用第m個分類結果和真實類別對比,看看分錯的比率有多少。
(c)計算乙個係數
注意:這個係數的**有點神奇,並不是憑空產生,跟損失函式有關,具體推導有點難,沒看懂。只需要先記住,當誤分率
(d)更新權重,就是用dm算出dm+1,公式就是上面的(8.4)。
注意:(e)所有dm都計算出來了,
3. 構建完整的adaboost分類器,就是簡單的相加很簡單!看(8.6)、(8.7)式,這樣完整的分類器就出來了。
提公升樹是以分類樹或回歸樹為基本分類器的提公升方法。對於二分類問題,提公升樹可以看作是adaboost演算法的特殊情況。
OKR 方法 學習筆記
最近公司興起了對okr這個詞的討論,並且聽到時總會伴隨提到kpi,提到績效考核。那okr到底是什麼呢?與kpi的區別在 與績效考核有什麼關係?它與我們現在推行的敏捷開發有啥關係呢?因此,就到網上查了些資料,加上個人的一些經驗和理解,盡量用少的篇幅,整理成了這篇文章。一 什麼是okr 我們先來看下什麼...
OKR 方法 學習筆記
最近公司興起了對okr這個詞的討論,並且聽到時總會伴隨提到kpi,提到績效考核。那okr到底是什麼呢?與kpi的區別在 與績效考核有什麼關係?它與我們現在推行的敏捷開發有啥關係呢?因此,就到網上查了些資料,加上個人的一些經驗和理解,盡量用少的篇幅,整理成了這篇文章。一 什麼是okr 我們先來看下什麼...
《統計學習方法》第八章提公升方法學習筆記
提公升方法需要解決兩個問題 一是在每一輪如何改變訓練資料的權值或概率分布 二是如何將弱分類器組合成乙個強分類器。對於第乙個問題,adaboost演算法是提高那些前一輪弱分類器錯誤分類樣本的權重,而降低那些被正確分類樣本的權重,這使得那些沒有被正確分類的樣本由於其權重的加大而受到後一輪的弱分類器的更大...