決策樹模型

2021-09-19 01:31:29 字數 1729 閱讀 9472

決策樹採用樹結構來進行決策的,可以認為是if-then規則集合,也可以認為是對特徵空間劃分,每個子空間對應乙個輸出。其優點簡單,快速,可解釋性強。決策樹通常包含三部分:特徵選擇,決策樹生成,決策樹剪枝。

資訊增益,資訊增益比,基尼指數是常用的特徵選擇準則

資訊熵:表示變數的不確定程度,資訊熵越大不確定卻大。也可說是樣本純度,樣本純度越高,資訊熵越小

資訊增益:給定特徵後不確定性減少程度

資訊增益準則會偏向選擇特徵取值種類較多的特徵(特徵取值越多就意味著確定性更高,條件熵越小,資訊增益越大),這種偏好會帶來不利影響。資訊增益比會偏向選擇特徵取值種類較少的特徵。c4.5採用啟發式,從候選特徵中找出資訊增益高出平均水平的特徵,再從中選擇資訊增益比最大的特徵。

基尼值:

基尼指數:

選擇使得劃分後基尼指數最小的屬性作為最優的劃分屬性。

經典決策樹id3,c4.5,cart

id3決策樹特徵選擇採用資訊增益準則,具體方法:從根節點開始,對節點計算所有特徵的資訊增益,選擇資訊增益最大的特徵作為該節點的特徵,該特徵的不同取值建立子節點;再對子節點遞迴採用上訴方法。直至所有特徵的資訊增益小於固定閾值或樹的深度達到固定閾值。最後採用投票法,決定葉子節定的類別

id3決策樹有三個特點:資訊增益,特徵值離散,多分枝樹(層級不會復用),只能分類

c4.5決策樹特徵選擇採用資訊增益比準則,具體方法:從根節點開始,對節點計算所有特徵的資訊增益,選擇資訊增益最大的特徵作為該節點的特徵,該特徵的不同取值建立子節點(1.若是離散特徵,則按取值建立子節點;2.若是連續特徵,則對連續特徵轉化為多個取值區間的離散變數);再對子節點遞迴採用上訴方法。直至所有特徵的資訊增益比小於固定閾值或樹的深度達到固定閾值。最後採用投票法,決定葉子節定的類別

c4.5決策樹特點:資訊增益比,離散連續特徵,多分枝樹(層級不會復用),只能分類

cart決策樹特徵選擇採用基尼指數準則,能處理分類回歸問題。同時也能處理離散連續特徵,針對連續特徵首先對該特徵的取值進行從小到大排序,依次選擇特徵值作為切分點(小於該切分點,位於左子樹;大於該切分點位於右子樹),找到使該特徵的基尼指數最小的切分點。

具體方法:從根節點開始,對節點計算所有特徵的基尼指數,選擇基尼指數最小的特徵作為該節點的特徵,小於該特徵切分點,位於左子樹;大於該切分點位於右子樹;再對子節點遞迴採用上訴方法。直至所有特徵的基尼指數比小於固定閾值或樹的深度達到固定閾值。對於分類問題:最後採用投票法(損失函式最小),決定葉子節定的類別;對於回歸問題:最後採用均值(損失函式最小),決定葉子節定的輸出值

cart決策樹特點:基尼指數,離散連續特徵,二叉樹(層級之間特徵復用),分類回歸

剪枝是決策樹對付過擬合的主要手段,決策樹剪枝包括預剪枝和後剪枝

後剪枝相較於預剪枝有更複雜的樹結構保留更多分支。一般情況下,後剪枝欠擬合風險小,泛化能力往往優於預剪枝。預剪枝不能保證得到最優的樹結構,有時當前特徵隨不能帶來泛化能力提高,但是以該特徵的分支,可能會帶來泛化能力提高。後剪枝的訓練時間開銷比預剪枝大得多。

4.其他

訓練時:

特徵選擇時,在d訓練集中選擇屬性a上沒有缺失的樣本集d',p=d'/d,資訊增益推廣為gain(d,a)=p*gain(d',a)

**時:

如果樣本在該節點處值缺失,則同時進入到所有子節點中,但權重在子節點中分別調整為子節點樣本數與該節點樣本數比值

決策樹模型

前言 決策樹生成模型三要素 一般而言,一顆 完全生長 的決策樹包含 特徵選擇 決策樹構建 剪枝三個過程。決策樹是一種啟發式貪心演算法,每次選取的分割資料的特徵是當前的最佳選擇,並不關心是否達到最優。一 特徵選擇 1.1 熵 樣本集合 純度 不確定性 穩定性的指標 熵越大,樣本的不確定性就越大 在決策...

決策樹模型

決策樹可以簡單的理解為根據特徵的取值而最終分成不同的類,也可以理解為簡單的if then的規則集合 樹嘛 那麼怎麼樣選擇節點是乙個很有技術的問題。為什麼呢,因為如果你的中間節點擊的不錯是不是就能夠很容易的將決策樹的各個節點很容易的分清楚了 說白了,你選的樹分叉的地方越有區分度 分類越多越好你乙個特徵...

決策樹模型

決策樹的目標是從一組樣本資料中,根據不同的特徵和屬性,建立一棵樹形的分類結構。決策樹的學習本質上是從訓練集中歸納出一組分類規則,得到與資料集矛盾較小的決策樹,同時具有很好的泛化能力。決策樹學習的損失函式通常是正則化的極大似然函式,通常採用啟發式方法,近似求解這一最優化問題。對於樣本集合d,類別數為k...