常用的決策樹演算法有id3、c4.5、cart,它們構建樹所使用的啟發式函式各是什麼?除了構建準則之外,它們之間的區別與聯絡是什麼?首先,我們回顧一下這幾種決策樹構造時使用的準則。人年齡
長相工資
寫**類別小a老
帥高不會不見
小b年輕
一般中等會見
小c年輕醜高
不會不見
小d年輕一般高
會見小l年輕一般低
不會不見
資訊增益 = 經驗熵-經驗條件熵
\(d\):樣本集合;\(k\):類別數
經驗熵:
\[h(d) = -\sum_^k \frac \text_2\frac
\]經驗條件熵:
\[h(d|a)=\sum_^n \frac h(d_i)=\sum_^n \frac\left(-\sum_^k \frac \text_2\frac\right)
\]示例:
總共d=5,不見:3,見:2
\[h(d)=-\frac \log_2\frac-\frac \log_2\frac=0.971
\]\[\begin
&h(d|年齡) = \frach(老)+\frach(年輕)=\frac(-0)+\frac\left(-\frac \log _ \frac-\frac \log _ \frac\right)=0.8 \\
&h(d|長相) = \frach(帥)+\frach(一般)+\frach(醜)=0+\frac\left(-\frac \log _ \frac-\frac \log _ \frac\right)+0=0.551 \\
&h(d|工資) = \frach(高)+\frach(中等)+\frach(低)=\frac\left(-\frac \log _ \frac-\frac \log _ \frac\right)+0+0=0.551 \\
&h(d|寫**)=\frach(不會)+\frach(會)=\frac(0)+\frac(0)=0
\end
\]\[\begin
&g(d,年齡) = 0.171,g(d,長相)=0.42 \\
&g(d,工資) = 0.42,g(d,寫**)=0.971
\end
\]id3只能用於離散型變數.
特徵a對於資料集d的資訊增益比定義為:
\[\text_r(d, a)=\frac(d, a)}
\]其中:
\[h_a(d) = -\sum_^k \frac \text_2\frac
\]
cart是指分類與回歸樹,而前兩種只能用做分類.gini描述的是資料的純度,和資訊熵類似。
\[\text(d) = 1-\sum_^n \left(\frac\right)
\]cart在每一次迭代中選擇基尼指數最小的特徵及其對應的切分點進行分類。cart是一棵二叉樹。特徵a的gini指數定義為:
\[\text(d|a)=\sum_^n\left(\frac\right)\text(d_i)
\]根據式(3.24)可計算出各個特徵的gini指數為
\[\begin
&\text(d|\text)=0.4, \\
&\text(d|\text)=0.4,\\
&\text(d|\text)=0.4,\text(d|\text)=0.4,\\
&\text(d|\text)=0,\text(d|\text)=0,\\
&\text(d|\text)=0.47,\text(d|\text)=0.3,\\
&\text(d|\text)=0.4
\end
\]
決策樹模型
決策樹採用樹結構來進行決策的,可以認為是if then規則集合,也可以認為是對特徵空間劃分,每個子空間對應乙個輸出。其優點簡單,快速,可解釋性強。決策樹通常包含三部分 特徵選擇,決策樹生成,決策樹剪枝。資訊增益,資訊增益比,基尼指數是常用的特徵選擇準則 資訊熵 表示變數的不確定程度,資訊熵越大不確定...
決策樹模型
前言 決策樹生成模型三要素 一般而言,一顆 完全生長 的決策樹包含 特徵選擇 決策樹構建 剪枝三個過程。決策樹是一種啟發式貪心演算法,每次選取的分割資料的特徵是當前的最佳選擇,並不關心是否達到最優。一 特徵選擇 1.1 熵 樣本集合 純度 不確定性 穩定性的指標 熵越大,樣本的不確定性就越大 在決策...
決策樹模型
決策樹可以簡單的理解為根據特徵的取值而最終分成不同的類,也可以理解為簡單的if then的規則集合 樹嘛 那麼怎麼樣選擇節點是乙個很有技術的問題。為什麼呢,因為如果你的中間節點擊的不錯是不是就能夠很容易的將決策樹的各個節點很容易的分清楚了 說白了,你選的樹分叉的地方越有區分度 分類越多越好你乙個特徵...