樹模型
(上思維導圖來自知乎:夕小瑤)
決策樹演算法主要包括決策樹的生成與剪枝。
決策樹可以從兩個方面解釋
決策樹學習的本質是從訓練資料集中歸納出一組分類規則,也可以看做是對特徵空間劃分類的條件概率分布。
首先,按照根據統計學習三要素來分析決策樹學習的過程:
假設空間:對特徵空間進行劃分所有可能的決策樹
損失函式:正則化的極大似然函式
優化方法:優化就是要在所有可能的的決策樹中選擇損失最小的樹。在所有可能的決策樹選擇最優決策樹是完全np問題。所以決策樹的學習一般使用啟發式的方法近似求解。這樣得到的決策樹是次最優的。
決策樹啟發式學習方法:遞迴的選擇最優特徵,對特徵空間不斷的劃分,也對應著決策樹的構建。決策樹的生成只考慮區域性最優,決策樹的剪枝考慮全域性最優。決策樹的生成主要有id3,c4.5和cart演算法。主要區別在於最優特徵選擇方法的不同。
1.1 id3-資訊增益
id3演算法使用資訊增益來選擇當前的最優特徵。資訊增益是用來衡量給定特徵a後,隨機變數熵下降的程度。用經驗熵h(d)和給定特徵a的條件經驗熵h(d|a)之差來表示。
g ai
n(d,
a)=h
(d)−
h(d∣
a)=h
(d)−
∑i=1
n∣di
∣∣d∣
h(di
)gain(d,a)=h(d)-h(d|a)\\=h(d)-\sum_^n\frach(d_i)
gain(d
,a)=
h(d)
−h(d
∣a)=
h(d)
−i=1
∑n∣
d∣∣d
i∣
h(di
)h(d)表示熵,用來衡量隨機變數的不確定性。熵越大,不確定性越大。
h (d
)=−∑
k=1k
∣dk∣
∣d∣l
og∣d
k∣∣d
∣h(d)=-\sum_^k\frac\mathop\frac
h(d)=−
k=1∑
k∣d
∣∣dk
∣l
og∣d
∣∣dk
∣
1.2 c4.5-資訊增益比
id3演算法中的使用資訊增益選擇最優特徵存在問題:資訊增益傾向於選擇取值較多的特徵。c4.5演算法使用資訊增益比來解決這一問題,對特徵的取值個數加上懲罰。
資訊增益比等於給定特徵a的資訊增益與樣本集關於特徵a的熵的比值。
g ra
te=g
ain(
d,a)
ha(d
)ha(
d)=−
∑i=1
n∣di
∣∣d∣
log∣
di∣∣
d∣g_=\frac\\h_a(d)=-\sum_^n\frac\mathop\frac
grate
=ha
(d)g
ain(
d,a)
ha
(d)=
−i=1
∑n∣
d∣∣d
i∣
log∣
d∣∣d
i∣
特徵a的取值越多,樣本集關於a的熵就越大。資訊增益比就相當於在資訊增益對特徵取值個數增加了懲罰。
1.3 cart樹
cart(classify and regression tree)是用於分類和回歸的二叉樹。回歸樹使用均方誤差最小化準則,分類樹用基尼指數最小化準則。遞迴的構建決策二叉樹。
1.3.1 回歸樹
回歸樹使用均方誤差。遍歷所有的特徵,以及該特徵的取值作為切分變數和切分點。將劃分後各葉節點的均值作為**值。選擇均方誤差最小的劃分變數和劃分點對特徵空間進行劃分。遞迴進行以上過程,直到達到停止條件。
1.3.2 分類樹
分類樹使用基尼指數。
g in
i(p)
=∑k=
1kpk
(1−p
k)=1
−∑k=
1kpk
2gini(p)=\sum_^kp_k(1-p_k)=1-\sum_^kp_k^2
gini(p
)=k=
1∑k
pk(
1−pk
)=1
−k=1
∑kp
k2基尼指數表示對隨機變數進行兩次又放回的取樣,這兩次拿到的樣本不屬於同一類的概率。與熵一樣,反映了隨機變數的混亂程度。
決策樹生成只考慮區域性最優。通過不斷對特徵空間進行劃分,來更好的擬合訓練資料。這樣做很容易過擬合。決策樹的剪枝考慮全域性最優。通過極小化帶正則(代表整棵樹的複雜度)的樹整體損失對生成的決策樹進行剪枝。
l =∑
t=1t
nth(
dt)+
a∣t∣
l=\sum_^tn_th(d_t)+a|t|
l=t=1∑
tnt
h(d
t)+
a∣t∣
其中t表示葉節點的個數。第一項表示樹的整體損失(整棵樹熵的期望),第二項表示樹的複雜度。a是控制兩者影響的比例。
根據剪枝時機的不同,可分為預剪枝和後剪枝。
樹模型大多用於整合學習中,關於樹整合的演算法參見整合學習部分的介紹。
參考:
[1] 李航,統計學習方法
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法
這兩天翻了一下這本書,做個筆記,方便下次細看。本書主要講解統計學習中用到的監督學習。介紹了一些模型機器演算法。當參考書不錯,不怎麼適合死磕。第一章 主要介紹機器學習,統計學習的基本步驟,以及常用的表示方法。寫的比較系統,對於這個比較不熟悉的,可以好好看看。因為常用的模型就是這樣表示的,懂了這個看公式...
統計學習方法
第一章 方法概述 統計學習方法三要素 模型,策略,演算法 監督學習的重要問題 分類問題 classification 應用 銀行構建客戶分類模型,網路安全利用日誌資料對入侵檢測,影象處理檢測影象中是否有人臉,手寫識別識別分類手寫數字,網際網路搜尋網頁分類 二類分類評價指標 精確度,召回率,f1值 標...