一、
優點:泛化錯誤率降低,易編碼,可以應用在大部分分類器上,無引數調整
缺點:對離群點敏感
使用資料型別:數值型和標稱型資料二、1
、元演算法:對其他演算法進行組合
不同演算法整合、同一演算法在不同設定下的整合、資料集不同部分分配給不同分類器之後的整合 2
、演算法比較:
bagging
(自舉匯聚法):從原始資料集
隨機選擇
s次後得到
s個新資料集,不同分類器是通過序列訓練獲得的,每個新分類器都根據已訓練出來的分類器的效能來進行訓練;分類器權重相等
boosting
三、adaboost
演算法執行過程: 1.
賦予每個樣本乙個權重,這些權重構成向量
d,初始時權重相等 2.
在訓練資料上訓練出乙個弱分類器並計算分類器
錯誤率
3.計算該弱分類器權重
α,重新調整樣本權重
d,分對的樣本權重降低,分錯的樣本權重提高,重新訓練分類器 4.
重複訓練和調整權重,直到錯誤率為
0或弱分類器數目達到使用者指定值 5.
最終分類結果
=各弱分類器的結果加權求和
其中,錯誤率=
未正確分類的樣本數目
/所有樣本數目
分類器權重
α=1/2*ln((1-
錯誤率)/
錯誤率)
分對的樣本權重d(
t+1)=d(
t)exp(-α
)/sum(d)
分錯的樣本權重d(
t+1)=d(
t)exp(
α)/sum(d) 四、
1、非均衡分類問題:在分類器訓練時正例數目和反例數目相差很大
可以基於代價函式來控制分類器決策,可以通過過抽樣和欠抽樣調節資料集中正例和反例的數目
2、除了錯誤率外還有其他一些分類效能度量指標:正確率、召回率、
roc曲線
正確率=tp/(tp+fp)
,**為正例的樣本中實際為正例的比例
召回率=tp/(tp+fn)
,實際為正例的結果中**為正例的比例
假陽率=fp/(fp+tn)
,實際為反例的結果中**為正例的比例
真陽率=tp/(tp+fn)
,實際為正例的結果中**為正例的比例
roc曲線:用於度量分類中的非均衡性,
roc(receiver operating characteristic)
給出的是當閾值變化時假陽率和真陽率的變化情況
對不同roc
曲線進行比較時,用
auc(areaunder the curve)
評估,完美分類器的
auc為
1.0,隨機猜測的
auc為
0.5
AdaBoost元演算法
整合學習 將若干個弱分類器通過一定的策略組合之後產生乙個強分類器 分類 bagging 裝袋 boosting 有放回的隨機抽樣,弱分類器上有的被選擇有的沒有。例項 隨機森林 在bagging的樣本隨機取樣基礎上,又加上了特徵的隨機選擇 乙個迭代的過程,把弱分類器聚集到很難分類的樣本上,給每乙個訓練...
AdaBoost元演算法與提公升樹
1.1 強學習與弱學習 提公升方法的思想是,對於乙個複雜任務,多個專家綜合的判斷所得出的結果要比乙個專家號,即三個臭皮匠賽過諸葛亮的道理。弱學習演算法是指學習的正確率比隨機猜測略好,強學習演算法不僅可以學習,還能得到很高正確率。經學者證明,強可學習和弱可學習是等價的,即同時成立。所以我們的目標是找到...
機器學習演算法6 AdaBoost元演算法
一.什麼是元演算法 meta algorithm 元演算法就是對其他演算法進行組合的一種方式。也稱為整合演算法 ensemble method 例如bagging方法和boosting 方 法。它可以是不同演算法的整合 也 可以是同一演算法在不同設定下的整合 還可以是資料集不同部分分配給不同分類 器...