cart樹是後面所有模型的基礎,也是核心樹
在id3演算法中我們使用了資訊增益來選擇特徵,資訊增益大的優先選擇。在c4.5演算法中,採用了資訊增益比來選擇特徵,以減少資訊增益容易選擇特徵值多的特徵的問題。但是無論是id3還是c4.5,都是基於資訊理論的熵模型的,這裡面會涉及大量的對數運算。為了簡化模型同時也不至於完全丟失熵模型, cart分類樹演算法使用基尼係數來代替資訊增益比,基尼係數代表了模型的不純度,基尼係數越小,則不純度越低,特徵越好。這和資訊增益(比)是相反的。
cart既可以適應分類任務, 又可以適應回歸任務, 不同的任務, 特徵的選擇方式不一樣
假設有\(k\)個類,第\(k\)個類的概率為\(p_k\), 則基尼係數的表示式為:
\[gini(p)=\sum kp_k(1-p_k)=1-\sum_kp_k^2
\]對於二分類問題, 則公式可以簡化為: \(gnini(p)=2p(1-p)\), p代表屬於第一類樣本的概率
對於給定的樣本集合\(d\), \(k\)個類, 第\(k\)個類別的數量為\(c_k\), 則樣本\(d\)的基尼係數為:
\[gini(d)=1-\sum_^k(\frac)^2
\]顯然, 對於集合\(d\),假設屬性\(a\)的某個值\(a\)將資料集d切分為\(d_1,d_2\),則在特徵a的條件下, d的基尼係數表示式為:
\[gini(d,a)=\fracgini(d_1)+\fracgini(d_2)
\]相比於複雜的對數運算, 基尼係數的運算簡單很多, 對於連續值得處理, cart和c4.5是相同的:連續的二分離散特徵
在cart分類樹中, 其與id3,c4.5並沒有太大的差別, 而回歸則不一樣:
回歸樹模型採用均方差度量: 對於任意劃分的特徵a, 和乙個任意劃分的點s(該點s其實是特徵a裡面的某個值), 將資料集d劃分為\(d_1,d_2\), 這個點s要使\(d_1,d_2\)各自集合的均方差的最小,公式為:
\[min [min \sum_(y_i-c_1)^2 + min \sum_(y_i-c_2)^2 ]
\]其中, \(c\)為樣本輸出均值, 其實就是對應資料集的label的均值
那麼最終這棵樹的方程為:
\[f(x)=\sum_^ c_m i (x \in r_m)
\]其中,\(c_m\)為對應區域的均值, 類似於這樣
cart樹的主要開銷就在為每個特徵尋找最優切分點\(s\)上
CART回歸樹與分類樹
輸出是連續變數的是回歸樹,輸出是離散變數的是分類樹。cart決策樹是乙個二叉樹。輸入空間劃分為m個單元 單元對應輸出 是其對應的輸入空間。輸出取 上所有輸出的均值 下面,看輸入空間的劃分方法。假設最優切分變數 最優切分點 輸入空間被劃分為兩部分 它們的輸出是各自輸入空間中樣本標籤值 的均值和 因此,...
CART分類回歸樹
cart分類回歸樹1984年提出,id3演算法1986年提出,c4.5演算法1993年提出 cart由特徵選擇 樹的生成及剪枝組成。cart假設決策樹是二叉樹,內部結點特徵取值為是和否 cart使用損失函式最小作為剪枝的標準。回歸樹的生成 使用平方誤差最小化準則。對於任意劃分特徵a,對應的任意劃分點...
CART 回歸樹 例項
例如 根據 職業和年齡來 月薪。職業年齡 月薪程式設計師 2220000 程式設計師23 26000 程式設計師29 30000 教師23 12000 教師25 14000 樣本x 1,0,22 1,0,23 1,0,29 0,1,23 0,1,25 注 我們對職業特徵進行了one hot公升維 樣...