目前常見的整合(ensemble )學習方法:bagging,rf(採用了bagging 思想),boosting(adaboosting, gbdt,xgb,lgbm)。
兩者不同在於 bagging是整合多個強分類器,思路是最小化方差。個體學習器間不存在強依賴關係、可同時生成的並行化方法。
boosting 相關演算法見
bootstraping的名稱來自成語「pull up by your ownbootstraps」,意思是依靠你自己的資源,稱為自助
法,它是一種有放回的抽樣方法(bootstrap aggregation 簡稱 bagging)
演示圖:
在bagging中,乙個樣本可能被多次取樣,也可能一直不被取樣,假設乙個樣本一直不出現在取樣集的概率為(1-1/n) ** n,那麼對其求極限可知,原始樣本資料集中約有63.2%的樣本出現在了,bagging使用的資料集中,同時在取樣中,我們還可以使用袋外樣本(out of bagging)來對我們模型的泛化精度進行評估.
記原始資料為d,長度為n(即圖中有n個離散點)
做100次bootstrap,每次得到的資料di,di的長度為n
對於每乙個di,使用區域性回歸(loess)擬合一條曲線(圖中灰色線是其中的10條曲線)
將這些曲線取平均,即得到紅色的最終擬合曲線
顯然,紅色的曲線更加穩定,並且沒有過擬合明顯減弱
隨機森林在bagging基礎上做了修改。
. 從樣本集中用bootstrap取樣選出n個樣本;
. 從所有屬性中隨機選擇k個屬性,選擇最佳分割屬性作為節點建立cart決策樹;
. 重複以上兩步m次,即建立了m棵cart決策樹
. 這m個cart形成隨機森林,通過投票表決結果,決定資料屬於哪一類。
隨機森林可使用決策樹作為基本分類器但也可以使用svm、logistic回歸等其他分類器,習慣上,這些分類器組成的「總分類
器」,仍然叫做隨機森林。
貝葉斯投票機制基於每個基本分類器在過去的分類表現設定乙個權值,然後按照這個權值進行投票。
舉例一種投票方案:
投票計算電影得分
wr:加權得分(weighted rating)
. r:該電影的使用者投票的平均得分(rating)
. c:所有電影的平均得分
. v:該電影的投票人數(votes)
. m:排名前250名的電影的最低投票數
. 根據總投票人數,250可能有所調整
. 按照v=0和m=0分別分析
Bagging 隨機森林
bagging是n個相互無信賴的弱學習器,通過一定的策略,得到乙個強學習器。bagging乙個主要的特點是隨機取樣,bagging是有放回的取樣。對於乙個有m個樣本的資料集,每次採集乙個樣本,被採的概率是 frac 不被採的概率是 1 frac 如果m次取樣都沒有被採中的概率是 1 frac m 當...
Bagging與隨機森林
給定包含 m 個樣本的資料集 d,我們對它進行取樣產生資料集 d 每次隨機從 d 中挑選乙個樣本,將其拷貝放入 d 然後再將該樣本放回初始資料集 d 中,使得該樣本在下次取樣時仍有可能被採到 這個過程重複執行 m次後,我們就得到了包含 m 個樣本的資料集 d 這就是自助取樣的結果。顯然,d 中有一部...
Bagging和隨機森林
又稱袋裝 bagging 或者自助聚集 boot strap aggregating 是一種根據均勻概率分布從資料集中重複取樣 有放回 的技術。每個自助取樣的樣本集都和原資料集一樣大。在又放回的抽樣中,如果抽樣的個數和原資料集的大小一致,則自助樣本di d i中會有63 63 的原訓練資料,因為每乙...