回歸樹
回歸樹是乙個回歸模型,模型具有二叉樹結構。實際思想就是將特徵空間劃分為若干個子空間,並計算每個子空間內樣本標註的均值。**時,只需判斷樣本落入哪個子空間,其對應的子空間標註均值即是其**值。
如何劃分特徵空間?
以連續性特徵空間為例,要選擇合適的特徵維度和合適的劃分點。
具體方法就是遍歷所有的特徵維度和候選劃分點,使得劃分後,**誤差的平方和最小(兩個子空間的總方差和最小)。重複該過程直到達到停止條件。
**誤差的平方和:
e =∑
xi∈r
1(yi
−c1)
2+∑x
i∈r2
(yi−
c2)2
e = \sum\limits_(y_i-c_1)^2+\sum\limits_(y_i-c_2)^2
e=xi∈
r1∑
(yi
−c1
)2+
xi∈
r2∑
(yi
−c2
)2c1,
c2
c_1,c_2
c1,c2
為子空間的樣本標註均值:
c 1=
1∣n1
∣∑xi
∈r1y
ic_1=\frac\sum\limits_ y_i
c1=∣n
1∣1
xi
∈r1
∑yi
,c 2=
1∣n2
∣∑xi
∈r2y
ic_2=\frac\sum\limits_ y_i
c2=∣n
2∣1
xi
∈r2
∑yi
。分類樹分類樹是乙個分類模型,和回歸樹類似也具有二叉樹結構。實際思想也是劃分特徵空間,每個子空間天然屬於某一類,**時只需判斷樣本落入哪個子空間,其對應子空間類別即是**類別。
如何劃分特徵空間?
以連續特徵空間為例,也需要選擇合適的特徵維度和合適的劃分點。與回歸樹不同,分類樹用基尼係數指數來評價每一步的劃分效能。具體來說,針對乙個集合,選擇乙個特徵維度,然後選擇乙個劃分點,根據特徵維度值是否等於該劃分點,可以將集合劃分為兩個子集,然後計算兩個子集的基尼指數的加權和,子集權重等於該子集數量占原集合的比例。該基尼指數加權和稱為集合在某劃分條件下的基尼指數。
基尼指數定義:
基尼指數可以用來描述乙個分布或者乙個集合的不確定性(和熵類似)。其數值等於 任意選擇兩個樣本, 這兩個樣本不屬於同一類的概率,如下式:
g ai
n(d)
=1−∑
k=1c
pkpk
gain(d) = 1-\sum\limits_^ p_kp_k
gain(d
)=1−
k=1∑
cpk
pk。ga
in(d
,a)=
∣d1∣
∣d∣g
ain(
d1)+
∣d2∣
∣d∣g
ain(
d2
)gain(d,a) = \fracgain(d_)+\fracgain(d_)
gain(d
,a)=
∣d∣∣
d1∣
gai
n(d1
)+∣
d∣∣d
2∣
gain
(d2
)
CART分類回歸樹
cart分類回歸樹1984年提出,id3演算法1986年提出,c4.5演算法1993年提出 cart由特徵選擇 樹的生成及剪枝組成。cart假設決策樹是二叉樹,內部結點特徵取值為是和否 cart使用損失函式最小作為剪枝的標準。回歸樹的生成 使用平方誤差最小化準則。對於任意劃分特徵a,對應的任意劃分點...
CART分類和回歸樹
cart演算法根據類標號屬性的型別,當類標號屬性是連續型時,生成的模型是回歸樹 離散型則是分類樹。不同於id3演算法可以產生多個分支,cart每次 只能產生兩個分支,所以cart產生的決策樹是一棵二叉樹。雜度 不純度 gini t 1 各類數量在資料集中的概率 的平方和。標準問題集 所有候選分支方案...
CART分類與回歸樹
十大經典資料探勘演算法 系列 c4.5 k means svmapriori empagerank adaboost knnna ve bayes cart 分類與回歸樹 classification and regression trees,cart 是由四人幫leo breiman,jerome...