決策樹的剪枝和CART演算法

2021-07-27 06:56:11 字數 2414 閱讀 4257

在資料探勘中,決策樹主要有兩種型別:

分類樹的輸出是樣本的類標。 針對y是離散變數。

回歸樹的輸出是乙個實數 (例如房子的**,病人呆在醫院的時間等)。針對y是連續變數。 

cart與id3區別:

cart中用於選擇變數的不純性度量是gini指數;

如果目標變數是標稱的,並且是具有兩個以上的類別,則cart可能考慮將目標類別合併成兩個超類別(雙化); 

如果目標變數是連續的,則cart演算法找出一組基於樹的回歸方程來**目標變數。

三、構建分類決策樹

分類樹用基尼指數選擇最優特徵,同時決定該特徵值的最優二值切分點

基尼指數定義

分類問題中,假設有k個類,樣本點屬於第k類的概率為pk,則概率分布的基尼指數定義為

對於二類分類問題,若樣本點屬於第1個類的概率是p,則概率分布的基尼指數為

gini(p)=2p(1-p)

對於給定的樣本集合d,其基尼指數為

這裡,ck是d中屬於第k類的樣本子集,k

是類的個數。

d根據特徵a是否取某乙個可能值a而分為d1和d2兩部分:

則在特徵a的條件下,d的基尼指數是:

例子:根據表給出的資料,用cart演算法生成決策樹

解:首先計算各特徵的基尼指數,選擇最優特徵以及最優切分點。分別以a1

,a2,

a3,a

4

表示年齡、有工作、

有自己的房子和信貸情況4個特徵,並以1,2,3表示年齡的值為青年、中年和老年,以1,2表示有工作和有

自己的房子的值是和否,以1,2,3表示信貸情況的值為非常好、好和一般。

求特徵a1

的基尼指數:

青年(總量 = 5)

中年、老年(總量 = 10)

能否貸款

否,否,是,是,否

否,否,是,是,是,是,是,是,是,否

基尼指數在選取最優切分點的過程中,會分為當前特徵標籤和其他特徵標籤兩類。所以  g

ini(

d,a1

=1)=

515[2

×25×

(1−2

5)]+

1015[2

×710×

(1−7

10)]=

0.44

簡單說明下,第一部分是青年標籤裡能否貸款的資料混沌度,第二部分是中年和老年加在一起的資料混沌度。同理: gi

ni(d

,a1=

2)=0.48

gini(

d,a1

=3)=

0.44

由於gini

(d,a

1=1)

=gin

i(d,

a1=3

)=0.44

,且最小,所以a1

=1和a

1=3

都可以選作a1

的最優切分點。

求特徵a2和

a3的基尼指數:  g

ini(

d,a2

=1)=

0.32

gini(

d,a3

=1)=

0.27

由於a2和a

3 只有乙個切分點,所以它們就是最優切分點。

求特徵a

4 的基尼指數:  g

ini(

d,a4

=1)=

0.36

gini(

d,a4

=2)=

0.47

gini(

d,a4

=3)=

0.32

gini(

d,a4

=3)

最小,所以a4

=3 為

a4的最優切分點。在a

1,a2

,a3,

a4幾個特徵中,gi

ni(d

,a3=

1)=0.27

最小,所以選擇特徵a3

為最優特徵,a3

=1為其最優切分點。於是根結點生成兩個子結點,乙個是葉結點。對另乙個結點繼續使用以上方法在a1

,a2,

a4中選擇最優特徵及其最優切分點,結果是a2

=1,以此計算得知,所得結點都是葉結點。

有關剪枝的內容請參考統計學方法和

CART決策樹剪枝個人理解

cart決策樹剪枝個人理解 在看統計學習方法關於cart樹的剪枝是,感覺書上講得很迷惑,因此基於其他部落格以及書上內容得出自己的理解。首先確定cart樹的損失函式 c t c t t 式中c t 表示 的精度,即子樹t的錯誤數量 測試集數量,t 表示子樹t的葉子節點數量 c t 表示子樹t的整體損失...

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...

決策樹(CART演算法)

分類問題中,假設有k個類,樣本點屬於第k類的概率為p kp k pk 則概率分布的基尼指數定義為 其中p kp k pk 表示選中的樣本屬於k kk類別的概率,則這個樣本被分錯的概率為 1 pk 1 p k 1 pk 對於給定的樣本集合d,其基尼指數為 這裡的c kc k ck 是d中屬於第k類的樣...