bagging與boosting
參考資料
決策樹是一種典型的採用貪心策略的分類模型,即用區域性最優解去逼近全域性最優解。
在整個分類過程中,核心的指標是「不純度」(impurity),也就是分得「開不開」,因為對於分類問題,我們總是期望能夠把資料盡可能地不相交地隔開(比較svm的基本思想——尋找最大間隔分離超平面而分類,這種屬於「separate」;k-means——相近資料點而成類,則屬於「generate」),這樣最終分下來葉節點的純度最高;同時,特徵的增加會導致搜尋空間呈指數級上公升,從而難以獲得全域性最優解。
具體如何實現不純度的度量及優化,則體現在這三種不同的演算法上。
為了看出這三種演算法具體實現不純度度量上的差別,首先我們統一定義誤差率,
classification error (t
)=1−
maxi
=1[p
(i∣t
)]
\text(t)= 1- \mathop \limits_ [p(i|t)]
classification error (t
)=1−
i=1ma
x[p
(i∣t
)]其中 t
tt 表示某節點,而 p(i
∣t
)p(i|t)
p(i∣t)
則為該節點上類別 i
ii 的樣本所佔比例。
id3(iterativedichotomiser3) 「第三代迭代二叉樹」演算法,採用資訊增益(information gain)來衡量不純度,即劃分前後資訊熵的差。
假設劃分前的資料集為 d
dd , 劃分屬性為 a
aa, 那麼該劃分的資訊增益為:
g (s
,a)=
entr
opy(
s)−e
ntro
pya(
s)
g(s,a)= entropy(s)-entropy_a(s)
g(s,a)
=ent
ropy
(s)−
entr
opya
(s)
差值越大,說明「分得效果越明顯」,則分出來純度越高,效果也越好。這樣我們就希望總是選擇增益最大的特徵,從而更快地達到最優解(模擬梯度下降法),這也就帶來了偏向性。
id3處理的特徵型別是離散型,無法處理缺失值和過擬合。
c4.5演算法是id3的改進版,在資訊增益的基礎上引入了懲罰引數構成資訊增益比。這樣特徵個數越少,懲罰越大,同時特徵取值越小,資訊增益比越大。那麼就不能直接根據資訊增益比選出特徵,而是先根據找出高於平均特徵資訊增益的候選特徵,再選擇資訊增益率高的。
c4.5處理的特徵型別是離散型和連續性,能夠處理缺失值,並通過預剪枝和後剪枝處理過擬合。
cart(classificationandregressiontree)「分類和回歸樹」演算法,假定決策樹是二叉樹,可以分類也能回歸,並且替代之前的熵模型,改用基尼指數:
gini=1
−∑i=
0c−1
[(p(
i∣t)
)]
2\text=1- \sum \limits_^[(p(i|t))]^2
gini=1
−i=0
∑c−1
[(p
(i∣t
))]2
對於回歸樹,劃分的準則是均方差最小;對於分類樹,劃分的準則是基尼指數最小。
cart處理的特徵型別也是離散型和連續性,也能夠處理缺失值,並通過預剪枝和後剪枝處理過擬合。
以上談的都是以單個特徵做劃分,若考慮多個特徵的線性組合,就是多變數決策樹;同時,樣本的改變可能會引起樹結構的較大變化,這時我們考慮引入「隨機」的方法來生成樹,就是「隨機森林」。
bagging與boosing都來自整合學習的想法,是一種組合多個基本模型的訓練方法。
bagging的做法是對所有基本模型實行「民主制」,即「一人一票」,大部分情況下方差較小。
主流方法有:隨機森林。
「 ba
ggin
g+決策
樹=隨機
森林
」「bagging + 決策樹 = 隨機森林」
「baggi
ng+決
策樹=隨
機森林」
boosting的做法則是「貴族制」,也就是表現較好的「精英」模型有更高的權重,大部分情況下偏差較小。
主流方法有:adaboost,gradient boosting。
[1]:
[2]:
決策樹相關
優點 1 輸出結果易於理解,2 對缺失值不敏感,可以處理無關資料,可以處理非線性資料 3 對於異常點的容錯能力好,健壯性高 由於遞迴分割槽只使用最合適的二分問題來生成決策樹,所以非重要變數不會影響結果。此外,二分問題對資料點集進行中心分割,因此決策樹對極值 即異常值 是具有包容性的。4 不需要提前歸...
決策樹問題彙總
1.簡述決策樹原理?決策樹是一種基本的分類與回歸方法。它可以認為是if then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。決策樹是一種自上而下,對樣本資料進行樹形分類的過程,由節點和有向邊組成。節點分為內部節點和葉節點,每個內部節點表示乙個特徵或屬性,葉節點表示類別,邊代表劃分...
決策樹和CART決策樹
首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...