參考:
清華大學 資料探勘課程
1.bagging——bootstrap aggregation
bagging是有放回的取出樣本中的部分樣本,進行多次這種操作得到多組樣本,用這些樣本訓練多個分類器,然後在**的時候,用這些分類器進行**,用這些**值進行投票。比如7個**為1,3個**為0,則總的**值就為1。
2.典型演算法
隨機森林——random forest
隨機森林就是將多個(500 <= m <= 5000)決策樹集合起來得到乙個森林進行決策,根據上面的定義,就是用不同的決策樹進行**,然後用這些**進行投票。
假設有n個樣本,有放回的取n個樣本,這種隨機抽取的方法最終
當然對於這m個決策樹,在測試的時候可以用到的測試集的資料是要在訓練中沒有用的高的資料(訓練集不一樣,測試集也不一樣)。
如果每個樣本的特徵維度為k,指定乙個常數k<3.演算法步驟
優點:
1.不需要人為的去講資料分成測試集驗證集
2.不需要擔心過擬合問題,在隨機森林中有多個決策樹,即使有一部分樹過擬合了,但是在將所有分類器combine之後,過你華將被大大削弱,不用剪枝
3.不需要人為的特徵選擇,只需要設定數目。
4.可以進行特徵選擇,計算每個特徵的重要性。檢視每個特徵在不同決策樹中起到的作用,也就是基尼係數或增益率等評價值的大小,然後在森林中對所有樹中的該特徵的值做一下平均。就可以得到不同特徵的排名,這樣就知道哪些特徵比較重要,哪些特徵不重要。
分類錯誤的兩類因素:
1.樹之間的相關性,相關性越大,錯誤率越大
2.樹的分類能力越強,錯誤率越低
特徵選擇個數↑--相關性和分類能力↑
整合學習(2) bagging與隨機森林
給定乙個訓練集,對訓練樣本進行取樣,產生出若干個不同的子集,再從每個子集中訓練乙個基學習器。由於訓練資料不同,基學習器可望有比較大的差異。但如果取樣出的每個子集都完全不同,則每個基學習器只用到一小部分訓練資料,甚至不足以有效學習,也就無法產生好的學習器。可以使用相互有交疊的取樣子集解決。baggin...
整合學習 bagging和boosting
bagging boostrap aggregating 對樣本再取樣 boostrap 對每一重取樣的子樣本訓練乙個模型,最後取平均,所以是降低模型的variance。bagging比如random forest這種先天並行的演算法都有這個效果。boosting則是迭代演算法,每一次迭代都根據上一...
整合學習 Boosting和Bagging異同
整合學習 ensemble learning 有時也被籠統地稱作提公升 boosting 方法,廣泛用於分類和回歸任務。它最初的思想很簡單 使用一些 不同的 方法改變原始訓練樣本的分布,從而構建多個不同的分類器,並將這些分類器線性組合得到乙個更強大的分類器,來做最後的決策。也就是常說的 三個臭皮匠頂...