輸出是連續變數的是回歸樹,輸出是離散變數的是分類樹。
cart決策樹是乙個二叉樹。
輸入空間劃分為m個單元
,單元對應輸出
,是其對應的輸入空間。輸出取
上所有輸出的均值:
下面,看輸入空間的劃分方法。
假設最優切分變數
,最優切分點
,輸入空間被劃分為兩部分:
它們的輸出是各自輸入空間中樣本標籤值
的均值和
。因此,優化目標為:
窮舉,找到最優切分變數
和切分點
。之後,分治遞迴直到滿足終止條件(例如誤差小於某閾值、樣本個數小於某閾值、沒有更多特徵等)。
乙個樣本集合
的基尼指數(值越大,不確定性越大):
其中,是屬於第
類的樣本子集。
將樣本集合
劃分為和
的兩部分
和,對這種劃分定義基尼指數:
它表徵了經分割後,樣本集合d的不確定性,同樣地,基尼指數越小,樣本不確定性越小。
選擇使最小的
。之後,分治遞迴直到滿足終止條件即可。
CART分類與回歸樹
十大經典資料探勘演算法 系列 c4.5 k means svmapriori empagerank adaboost knnna ve bayes cart 分類與回歸樹 classification and regression trees,cart 是由四人幫leo breiman,jerome...
CART分類回歸樹
cart分類回歸樹1984年提出,id3演算法1986年提出,c4.5演算法1993年提出 cart由特徵選擇 樹的生成及剪枝組成。cart假設決策樹是二叉樹,內部結點特徵取值為是和否 cart使用損失函式最小作為剪枝的標準。回歸樹的生成 使用平方誤差最小化準則。對於任意劃分特徵a,對應的任意劃分點...
CART分類和回歸樹
cart演算法根據類標號屬性的型別,當類標號屬性是連續型時,生成的模型是回歸樹 離散型則是分類樹。不同於id3演算法可以產生多個分支,cart每次 只能產生兩個分支,所以cart產生的決策樹是一棵二叉樹。雜度 不純度 gini t 1 各類數量在資料集中的概率 的平方和。標準問題集 所有候選分支方案...