決定用哪個特徵來劃分特徵空間。
通過資訊增益選取對訓練資料具有分類能力的特徵。熵
資訊增益g(d,a)定義為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差,即
g (d
,a)=
h(d)
−h(d
∣a
)g(d, a) = h(d) - h(d|a)
g(d,a)
=h(d
)−h(
d∣a)
資訊熵增益準則的特徵選擇方法:對訓練資料集(或子集)d,計算其每個特徵的資訊增益,並比較它們的大小,選擇資訊增益最大的特徵。
生成最優決策樹是np完全問題。
因此使用啟發式方法,生成次最優決策樹。
即遞迴選擇最優特徵。
生成的決策樹容易發生過擬合,需要修剪。
決策樹的生成是尋找區域性最優的決策樹。
決策樹的修剪則是尋找全域性最優的決策樹。
決策樹的剪枝往往通過極小化決策樹整體的損失函式來實現
定義:t:修剪前的決策樹
|t|:t的葉子結點樹
t:t的某個葉結點
n
tn_t
nt:葉結點t的樣本數
n tk
n_nt
k:葉結點t的樣本中標籤為k的樣本樹
h t(
t)
h_t(t)
ht(t)
: 葉結
點t上的
經驗熵a
:引數,
:葉結點t上的經驗熵 a:引數,
:葉結點t上
的經驗熵
a:引數,a≥
0a \ge 0
a≥0損失函式:
c a(
t)=c
(t)+
a∣t∣
(1)c_a(t) = c(t) + a|t| \tag
ca(t)
=c(t
)+a∣
t∣(1)c(
t)=∑
∣t∣n
tht(
t)
(2)c(t) = \sum^n_th_t(t) \tag
c(t)=∑
∣t∣
nth
t(t
)(2)
p k=
ntkn
t(3)
p_k = \frac} \tag
pk=nt
ntk
(3)ht
(t)=
−∑kp
klogp
k(4)
h_t(t) = -\sum^kp_k\log p_k \tag
ht(t)
=−∑k
pk
logpk
(4)說明:
公式(1)中的第1項為模型對訓練資料**誤差,代表模型的模擬度
公式(1)代表模型的複雜度
公式(1)中的a代表平衡模型擬合度和複雜度之間的關係
損失函式極小化 = 正則化的極大似然估計
決策樹模型
決策樹採用樹結構來進行決策的,可以認為是if then規則集合,也可以認為是對特徵空間劃分,每個子空間對應乙個輸出。其優點簡單,快速,可解釋性強。決策樹通常包含三部分 特徵選擇,決策樹生成,決策樹剪枝。資訊增益,資訊增益比,基尼指數是常用的特徵選擇準則 資訊熵 表示變數的不確定程度,資訊熵越大不確定...
決策樹模型
前言 決策樹生成模型三要素 一般而言,一顆 完全生長 的決策樹包含 特徵選擇 決策樹構建 剪枝三個過程。決策樹是一種啟發式貪心演算法,每次選取的分割資料的特徵是當前的最佳選擇,並不關心是否達到最優。一 特徵選擇 1.1 熵 樣本集合 純度 不確定性 穩定性的指標 熵越大,樣本的不確定性就越大 在決策...
決策樹模型
決策樹可以簡單的理解為根據特徵的取值而最終分成不同的類,也可以理解為簡單的if then的規則集合 樹嘛 那麼怎麼樣選擇節點是乙個很有技術的問題。為什麼呢,因為如果你的中間節點擊的不錯是不是就能夠很容易的將決策樹的各個節點很容易的分清楚了 說白了,你選的樹分叉的地方越有區分度 分類越多越好你乙個特徵...