利用AdaBoost元演算法提高分類效能

2021-08-13 03:22:06 字數 1492 閱讀 8523

一、

優點:泛化錯誤率降低,易編碼,可以應用在大部分分類器上,無引數調整

缺點:對離群點敏感

使用資料型別:數值型和標稱型資料二、1

、元演算法:對其他演算法進行組合

不同演算法整合、同一演算法在不同設定下的整合、資料集不同部分分配給不同分類器之後的整合 2

、演算法比較:

bagging

(自舉匯聚法):從原始資料集

隨機選擇

s次後得到

s個新資料集,不同分類器是通過序列訓練獲得的,每個新分類器都根據已訓練出來的分類器的效能來進行訓練;分類器權重相等

boosting

三、adaboost

演算法執行過程: 1.

賦予每個樣本乙個權重,這些權重構成向量

d,初始時權重相等 2.

在訓練資料上訓練出乙個弱分類器並計算分類器

錯誤率

3.計算該弱分類器權重

α,重新調整樣本權重

d,分對的樣本權重降低,分錯的樣本權重提高,重新訓練分類器 4.

重複訓練和調整權重,直到錯誤率為

0或弱分類器數目達到使用者指定值 5.

最終分類結果

=各弱分類器的結果加權求和

其中,錯誤率=

未正確分類的樣本數目

/所有樣本數目

分類器權重

α=1/2*ln((1-

錯誤率)/

錯誤率)

分對的樣本權重d(

t+1)=d(

t)exp(-α

)/sum(d)

分錯的樣本權重d(

t+1)=d(

t)exp(

α)/sum(d) 四、

1、非均衡分類問題:在分類器訓練時正例數目和反例數目相差很大

可以基於代價函式來控制分類器決策,可以通過過抽樣和欠抽樣調節資料集中正例和反例的數目

2、除了錯誤率外還有其他一些分類效能度量指標:正確率、召回率、

roc曲線

正確率=tp/(tp+fp)

,**為正例的樣本中實際為正例的比例

召回率=tp/(tp+fn)

,實際為正例的結果中**為正例的比例

假陽率=fp/(fp+tn)

,實際為反例的結果中**為正例的比例

真陽率=tp/(tp+fn)

,實際為正例的結果中**為正例的比例

roc曲線:用於度量分類中的非均衡性,

roc(receiver operating characteristic)

給出的是當閾值變化時假陽率和真陽率的變化情況

對不同roc

曲線進行比較時,用

auc(areaunder the curve)

評估,完美分類器的

auc為

1.0,隨機猜測的

auc為

0.5

AdaBoost元演算法

整合學習 將若干個弱分類器通過一定的策略組合之後產生乙個強分類器 分類 bagging 裝袋 boosting 有放回的隨機抽樣,弱分類器上有的被選擇有的沒有。例項 隨機森林 在bagging的樣本隨機取樣基礎上,又加上了特徵的隨機選擇 乙個迭代的過程,把弱分類器聚集到很難分類的樣本上,給每乙個訓練...

AdaBoost元演算法與提公升樹

1.1 強學習與弱學習 提公升方法的思想是,對於乙個複雜任務,多個專家綜合的判斷所得出的結果要比乙個專家號,即三個臭皮匠賽過諸葛亮的道理。弱學習演算法是指學習的正確率比隨機猜測略好,強學習演算法不僅可以學習,還能得到很高正確率。經學者證明,強可學習和弱可學習是等價的,即同時成立。所以我們的目標是找到...

機器學習演算法6 AdaBoost元演算法

一.什麼是元演算法 meta algorithm 元演算法就是對其他演算法進行組合的一種方式。也稱為整合演算法 ensemble method 例如bagging方法和boosting 方 法。它可以是不同演算法的整合 也 可以是同一演算法在不同設定下的整合 還可以是資料集不同部分分配給不同分類 器...