基於CART的回歸和分類任務

2021-08-20 20:16:07 字數 1750 閱讀 1205

cart 是 classification and regression tree 的縮寫,即分類與回歸樹。    

博主之前學習的時候有用過決策樹來做**的小例子:機器學習之決策樹**——鐵達尼號乘客資料例項,不過在那篇部落格中並沒有詳細闡述演算法的原理,本篇部落格以學習 cart 裡面的思想為主。

cart 假設決策樹是二叉樹,因此回歸樹的生成式遞迴構建二叉樹決策的過程。其核心思想是通過對特徵空間分層**,每個空間的觀測值的均值即為該空間內所有觀測值的**值。一般採用「自上而下」的貪婪方法:遞迴二叉**(recursive binary splitting)。最優**僅僅限於某一步程序,而不是針對全域性去選擇能夠在未來程序中構建出更好的樹的分類點。

(1)將**變數空間分割成若干互不重疊的區域,劃分遵循的原則是使得兩個兩份的區域的殘差平方和最小。

遍歷變數 j,

對固定的切分變數 j 

掃瞄切分點 s

,選擇使上式最小值的對 (j, s)

。其中 rm 是

被劃分的輸入空間,cm

是空間rm 

對應的固定輸出值

。(2)用選定的對(j, s)劃區域並決定相應的輸出值:r1

(j.s)=,

(3)重複步驟(1)和(2),直到滿足條件,比方當所有區域的觀測值的個數都不大於5時,**停止。

(4)對劃分的空間進行**(用這一空間的訓練集平均響應值對其**)。

樹的**點過多,可能會導致過擬合。為了避免過擬合的方法,我們可以人為設定 rss 的閾值,但是這樣可能會使得一些初看起來不值得**的點在之後會有很好的**,也就是在下一步中 rss 會大幅度減小。

因此,更好的策略是生成一棵大樹,通過剪枝(prune)得到子樹(subtree)。

採用代價複雜性剪枝(cost complexity pruning),也叫做最弱聯絡剪枝(weakest link pruning)。取 a 滿足下式:

絕對值 t 表示樹 t 的終端節點數, 這種減小過擬合的方式類似於 lasso

分類樹和回歸樹非常相似,區別在於分類樹可以用於**定性白那輛而非定量變數。對於分類樹,其給定觀測值被**為它所屬區域內訓練集中最常出現的類。可以選用分類錯誤率代替 rss 作為分類指標,但是這個指標對於分類錯誤率不敏感,因此實踐中採用基尼係數或者互熵

基尼係數(gini index)定義如下:

其中,k 是類別數目,純度指標。

互熵(cross-entropy)定義如下:

基尼係數和互熵在數值上是非常接近的。

與傳統方法比較,決策樹有以下的優缺點:

(1)解釋性有時候好於線性回歸,小規模樹方便解釋

(2)接近人的決策

(3)直接處理定性**變數,而不需要建立啞變數

(4)一般**準確性無法達到其他回歸和分類的水平

CART分類和回歸樹

cart演算法根據類標號屬性的型別,當類標號屬性是連續型時,生成的模型是回歸樹 離散型則是分類樹。不同於id3演算法可以產生多個分支,cart每次 只能產生兩個分支,所以cart產生的決策樹是一棵二叉樹。雜度 不純度 gini t 1 各類數量在資料集中的概率 的平方和。標準問題集 所有候選分支方案...

CART分類回歸樹

cart分類回歸樹1984年提出,id3演算法1986年提出,c4.5演算法1993年提出 cart由特徵選擇 樹的生成及剪枝組成。cart假設決策樹是二叉樹,內部結點特徵取值為是和否 cart使用損失函式最小作為剪枝的標準。回歸樹的生成 使用平方誤差最小化準則。對於任意劃分特徵a,對應的任意劃分點...

CART分類與回歸樹

十大經典資料探勘演算法 系列 c4.5 k means svmapriori empagerank adaboost knnna ve bayes cart 分類與回歸樹 classification and regression trees,cart 是由四人幫leo breiman,jerome...