資料探勘十大經典演算法 CART

2021-09-22 19:18:50 字數 1176 閱讀 9541

資料探勘十大經典演算法(10) cart

分類回歸樹(cart,classification and regression tree)也屬於一種決策樹, 分類回歸樹是一棵二叉樹,且每個非葉子節點都有兩個孩子,所以對於第一棵子樹其葉子節點數比非葉子節點數多1。

決策樹生長的核心是確定決策樹的分枝準則。

1、 如何從眾多的屬性變數中選擇乙個當前的最佳分支變數; 也就是選擇能使異質性下降最快的變數。

異質性的度量:gini、twoing、least squared deviation。

前兩種主要針對分型別變數,lsd針對連續性變數。

**劃分、加權劃分、先驗概率

2、 如何從分支變數的眾多取值中找到乙個當前的最佳分割點(分割閾值)。

(1) 分割閾值:

a、數值型變數——對記錄的值從小到大排序,計算每個值作為臨界點產生的子節點的異質性統計量。能夠使異質性減小程度最大的臨界值便是最佳的劃分點。

b、分型別變數——列出劃分為兩個子集的所有可能組合,計算每種組合下生成子節點的異質性。同樣,找到使異質性減小程度最大的組合作為最佳劃分點。

在決策樹的每乙個節點上我們可以按任乙個屬性的任乙個值進行劃分。 按哪種劃分最好呢?有3個標準可以用來衡量劃分的好壞:gini指數、雙化指數、有序雙化指數。

終止條件:

乙個節點產生左右孩子後,遞迴地對左右孩子進行劃分即可產生分類回歸樹。這裡的終止條件是什麼?什麼時候節點就可以停止**了?

滿足以下乙個即停止生長。

(1) 節點達到完全純性;

(2) 數樹的深度達到使用者指定的深度;

(3) 節點中樣本的個數少於使用者指定的個數;

(4) 異質性指標下降的最大幅度小於使用者指定的幅度。

剪枝當分類回歸樹劃分得太細時,會對雜訊資料產生過擬合作用。因此我們要通過剪枝來解決。剪枝又分為前剪枝和後剪枝:前剪枝是指在構造樹的過程中就知道哪些節點可以剪掉,於是乾脆不對這些節點進行**,在n皇后問題和揹包問題中用的都是前剪枝,上面的χ2方法也可以認為是一種前剪枝;後剪枝是指構造出完整的決策樹之後再來考查哪些子樹可以剪掉。

在分類回歸樹中可以使用的後剪枝方法有多種,比如:代價複雜性剪枝、最小誤差剪枝、悲觀誤差剪枝等等。這裡我們只介紹代價複雜性剪枝法。

** 回歸樹——**值為葉節點目標變數的加權均值

分類樹——某葉節點**的分類值應是造成錯判損失最小的分類值。

資料探勘十大經典演算法

最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...

資料探勘十大經典演算法

1 c4.5 2 k means 3 svm 4 apriori 5 em 6 pagerank 7 adaboost 8 knn 9 bayes 10 cart 1 c4.5 計算增益率 step1 計算資料集d的熵 單位為位元 info d step2 計算每個屬性的熵info x d step...

十大經典資料探勘演算法

c4.5演算法 機器學習演算法中的乙個分類決策樹演算法 cart 分類與回歸樹 c4.5與cart都是決策樹演算法 id3用資訊增益,c4.5用資訊增益率,cart用gini係數 knn 樸素貝葉斯 bayes 在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型 decision tree ...