工作原理: 得到原始資料集,然後基於最好的屬性值劃分資料集,由於特徵值可能多於兩個,因此可能存在大於兩個分支的資料集劃分。第一次劃分之後,資料被向下傳遞到樹分支的下乙個節點,在這個節點上,我們可以再次劃分資料,因此,我們可以採用遞迴的原則處理資料集。
遞迴結束的條件是:
程式遍歷完所有劃分資料集的屬性。
每個分支下的所有例項都具有相同的分類。
決策樹學習演算法包含特徵選擇、決策樹的生成、決策樹的剪枝。
特徵選擇
特徵選擇在於選取對訓練資料具有分類能力的特徵。這樣可以提高決策樹學習的效率。通常特徵選擇的準則是資訊增益或資訊增益比。
資訊增益
在劃分資料集之前之後資訊發生的變化稱為資訊增益。計算資訊增益,我們就可以計算每個特徵值劃分資料集獲得的資訊增益,獲得資訊增益最高的特徵就是最好的選擇。
集合資訊的度量方式稱為夏農熵或者簡稱為熵。
熵定義為資訊的期望值。
如果待分類的事務可能劃分在多個分類之中,則符號xi
的資訊定義為:
l(xi
)=−log2p
(xi)
其中,p(x
i)是選擇該分類的概率。
為了計算熵,需要計算所有類別可能值包含的資訊期望值,通過下面的公式得到:h=
−∑i=
1np(
xi)log2p
(xi)
其中,n是分類的數目。
資訊增益:表示得知特徵x的資訊而使得類y的資訊的不確定性減少的程度。特徵a對訓練資料集d的資訊增益g(d,a),定義為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差,即g(
d,a)
=h(d
)−h(
d|a)
一般,熵h(y)與條件熵h(y|x)之差稱為互資訊。決策樹學習中的資訊增益等價於訓練資料集中類與特徵的互資訊。
另乙個度量集合無序程度的方法是基尼不純度,簡單的說就是從乙個資料集中隨機選取子項,度量其被錯誤分類到其他分組裡的概率。
基尼指數總體內包含的類別越雜亂,基尼指數也就越大(跟熵的概念很相似)。
決策樹剪枝
決策樹生成演算法遞迴的產生決策樹,直到不能繼續下去為止。這樣產生的樹往往對訓練資料的分類很準確,但對未知的測試資料的分類卻沒有那麼準確,即出現過擬合現象。
在決策學習中將已經生成的樹進行簡化的過程稱為剪枝。
剪枝:從已生成的樹上裁掉一些子樹或葉節點,並將其根節點或父節點作為新的葉節點,從而簡化分類樹模型。
決策樹的剪枝往往通過極小化決策樹整體的損失函式或代價函式來實現。利用損失函式最小原則進行剪枝就是用正則化的極大似然估計進行模型選擇。
優點:計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵資料。
缺點:可能會產生過度匹配問題。
適用資料型別:數值型和標稱型。
《統計學習方法》之決策樹
決策數是一種基本的分類和回歸方法。主要優點是模型具有可讀性,分類快。學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型。決策樹學習通常包括3個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹中每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑或一條規則所覆蓋。決策樹學習是由訓練資料...
統計學習方法 決策樹
決策樹是一種基本的分類與回歸方法。一 決策樹模型 決策樹可以轉換成乙個if then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布 特徵為變數,類為概率 cart與id3 id4.5的區別 cart假設決策樹是二叉樹,特徵取值為 是 或 否 二,決策樹的生成演算法 2.1 id3 id...
統計學習方法 決策樹
決策樹學習的三個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹的結點 內部結點表示乙個特徵或屬性,葉節點表示乙個分類 決策樹的路徑或其對應的if then規則集合滿足性質 互斥且完備 決策樹學習本質上是從訓練資料集中歸納出一組分類規則 與訓練集不相矛盾的決策樹可能有很多,我們需要的是乙個與訓練資...