分類回歸樹 CART 的快速理解

2021-10-01 22:53:34 字數 1797 閱讀 3744

回歸樹

回歸樹是乙個回歸模型,模型具有二叉樹結構。實際思想就是將特徵空間劃分為若干個子空間,並計算每個子空間內樣本標註的均值。**時,只需判斷樣本落入哪個子空間,其對應的子空間標註均值即是其**值。

如何劃分特徵空間?

以連續性特徵空間為例,要選擇合適的特徵維度和合適的劃分點。

具體方法就是遍歷所有的特徵維度和候選劃分點,使得劃分後,**誤差的平方和最小(兩個子空間的總方差和最小)。重複該過程直到達到停止條件。

**誤差的平方和:

e =∑

xi∈r

1(yi

−c1)

2+∑x

i∈r2

(yi−

c2)2

e = \sum\limits_(y_i-c_1)^2+\sum\limits_(y_i-c_2)^2

e=xi​∈

r1​∑

​(yi

​−c1

​)2+

xi​∈

r2​∑

​(yi

​−c2

​)2c1,

c2

c_1,c_2

c1​,c2

​為子空間的樣本標註均值:

c 1=

1∣n1

∣∑xi

∈r1y

ic_1=\frac\sum\limits_ y_i

c1​=∣n

1​∣1

​xi​

∈r1​

∑​yi

​,c 2=

1∣n2

∣∑xi

∈r2y

ic_2=\frac\sum\limits_ y_i

c2​=∣n

2​∣1

​xi​

∈r2​

∑​yi

​。分類樹分類樹是乙個分類模型,和回歸樹類似也具有二叉樹結構。實際思想也是劃分特徵空間,每個子空間天然屬於某一類,**時只需判斷樣本落入哪個子空間,其對應子空間類別即是**類別。

如何劃分特徵空間?

以連續特徵空間為例,也需要選擇合適的特徵維度和合適的劃分點。與回歸樹不同,分類樹用基尼係數指數來評價每一步的劃分效能。具體來說,針對乙個集合,選擇乙個特徵維度,然後選擇乙個劃分點,根據特徵維度值是否等於該劃分點,可以將集合劃分為兩個子集,然後計算兩個子集的基尼指數的加權和,子集權重等於該子集數量占原集合的比例。該基尼指數加權和稱為集合在某劃分條件下的基尼指數。

基尼指數定義:

基尼指數可以用來描述乙個分布或者乙個集合的不確定性(和熵類似)。其數值等於 任意選擇兩個樣本, 這兩個樣本不屬於同一類的概率,如下式:

g ai

n(d)

=1−∑

k=1c

pkpk

gain(d) = 1-\sum\limits_^ p_kp_k

gain(d

)=1−

k=1∑

c​pk

​pk​。ga

in(d

,a)=

∣d1∣

∣d∣g

ain(

d1)+

∣d2∣

∣d∣g

ain(

d2

)gain(d,a) = \fracgain(d_)+\fracgain(d_)

gain(d

,a)=

∣d∣∣

d1​∣

​gai

n(d1

​)+∣

d∣∣d

2​∣​

gain

(d2​

)

CART分類回歸樹

cart分類回歸樹1984年提出,id3演算法1986年提出,c4.5演算法1993年提出 cart由特徵選擇 樹的生成及剪枝組成。cart假設決策樹是二叉樹,內部結點特徵取值為是和否 cart使用損失函式最小作為剪枝的標準。回歸樹的生成 使用平方誤差最小化準則。對於任意劃分特徵a,對應的任意劃分點...

CART分類和回歸樹

cart演算法根據類標號屬性的型別,當類標號屬性是連續型時,生成的模型是回歸樹 離散型則是分類樹。不同於id3演算法可以產生多個分支,cart每次 只能產生兩個分支,所以cart產生的決策樹是一棵二叉樹。雜度 不純度 gini t 1 各類數量在資料集中的概率 的平方和。標準問題集 所有候選分支方案...

CART分類與回歸樹

十大經典資料探勘演算法 系列 c4.5 k means svmapriori empagerank adaboost knnna ve bayes cart 分類與回歸樹 classification and regression trees,cart 是由四人幫leo breiman,jerome...