決策樹演算法

2021-10-01 04:55:41 字數 1207 閱讀 3170

決策樹演算法的發展歷程:id3(1970s) -> c4.5 -> cart

純度:樣本集合的不確定度。通常可以用資訊熵 or 資訊增益來表示。

使用資訊增益來劃分最優屬性。

資訊增益(資訊不確定性減少的程度最大): 資訊熵-條件熵。

但這樣做的侷限性在於,如果存在乙個唯一的屬性,那麼選擇它作為最優劃分屬性時,資訊增益最大,然而這樣構建的樹完全不具有泛化性。由此引入資訊增益率。

資訊增益率:資訊增益 / iv(a)

iv(a):屬性a的固有值,其中v=a屬性可以被劃分的類別數量

可以看出,v越大,iv(a)越大,資訊增益率越小,從而避免偏好類別較多的屬性。但單純使用的侷限性在於,會偏向選擇類別最少的屬性。

綜合來看,經過兩個步驟的選擇是比較靠譜的:

step1.先選出資訊增益高於平均水平的屬性,step2.再在這些屬性中選擇資訊增益率最高的屬性。

cart是一棵二叉樹,可以是分類樹(判斷是否結婚),也可以是回歸樹(**年齡)。

節點屬性**的依據:分類樹 -> 最小gini值; 回歸樹 -> 最小方差。

gini值:gini值越小,純度越高。

回歸方差:方差越小,純度越高。

步驟1:計算所有非葉子節點的表面誤差率增益值;

步驟2:對表面誤差率增益值最小的非葉子節點剪枝(如果多個節點計算結果相同,選擇子節點最多的那個)

參考 決策樹演算法 from 飛末

決策樹演算法

決策樹是一種樹型結構,其中每個內部結點表示在乙個屬性上的測試,每個分支代表乙個測試輸出,每個葉結點代表一種類別。決策樹學習是以例項為基礎的歸納學習,採用的是自頂向下的遞迴方法,其基本思想是以資訊熵為度量構造一棵熵值下降最快的樹,到葉子結點處的熵值為零,此時每個葉節點中的例項都屬於同一類。決策樹學習演...

決策樹演算法

本文主要介紹id3 c4.5和cart演算法 決策樹起源於概念學習系統 cls 概念學習模型 是乙個事先定義的範疇集合和一些有關例子是否落入給定範疇的判定 概念學習的主要任務 是判斷所給定事物的屬性或特性,並且正確地區分這些事物,將其劃分到某乙個範疇 對於如下決策樹模型 我們首先考慮他的屬性outl...

決策樹演算法

引 最近老師布置了課堂展示的作業,主題是決策樹,老師還舉了買西瓜的決策例子,感覺貼近生活也很有意思。在這之前沒有了解過這個概念,通過幾個禮拜的學習收穫不少。一 首先,什麼是決策樹?個人而言,決策樹就是將人在做決策時的思維脈絡以樹的形式展示出來的產物,即決策的過程模型。這是一棵去不去打高爾夫球的決策樹...