在資料探勘中,決策樹主要有兩種型別:
分類樹的輸出是樣本的類標。 針對y是離散變數。
回歸樹的輸出是乙個實數 (例如房子的**,病人呆在醫院的時間等)。針對y是連續變數。
cart與id3區別:
cart中用於選擇變數的不純性度量是gini指數;
如果目標變數是標稱的,並且是具有兩個以上的類別,則cart可能考慮將目標類別合併成兩個超類別(雙化);
如果目標變數是連續的,則cart演算法找出一組基於樹的回歸方程來**目標變數。
三、構建分類決策樹
分類樹用基尼指數選擇最優特徵,同時決定該特徵值的最優二值切分點
基尼指數定義
分類問題中,假設有k個類,樣本點屬於第k類的概率為pk,則概率分布的基尼指數定義為
對於二類分類問題,若樣本點屬於第1個類的概率是p,則概率分布的基尼指數為
gini(p)=2p(1-p)
對於給定的樣本集合d,其基尼指數為
這裡,ck是d中屬於第k類的樣本子集,k
是類的個數。
d根據特徵a是否取某乙個可能值a而分為d1和d2兩部分:
則在特徵a的條件下,d的基尼指數是:
例子:根據表給出的資料,用cart演算法生成決策樹
解:首先計算各特徵的基尼指數,選擇最優特徵以及最優切分點。分別以a1
,a2,
a3,a
4
表示年齡、有工作、
有自己的房子和信貸情況4個特徵,並以1,2,3表示年齡的值為青年、中年和老年,以1,2表示有工作和有
自己的房子的值是和否,以1,2,3表示信貸情況的值為非常好、好和一般。
求特徵a1
的基尼指數:
青年(總量 = 5)
中年、老年(總量 = 10)
能否貸款
否,否,是,是,否
否,否,是,是,是,是,是,是,是,否
基尼指數在選取最優切分點的過程中,會分為當前特徵標籤和其他特徵標籤兩類。所以 g
ini(
d,a1
=1)=
515[2
×25×
(1−2
5)]+
1015[2
×710×
(1−7
10)]=
0.44
簡單說明下,第一部分是青年標籤裡能否貸款的資料混沌度,第二部分是中年和老年加在一起的資料混沌度。同理: gi
ni(d
,a1=
2)=0.48
gini(
d,a1
=3)=
0.44
由於gini
(d,a
1=1)
=gin
i(d,
a1=3
)=0.44
,且最小,所以a1
=1和a
1=3
都可以選作a1
的最優切分點。
求特徵a2和
a3的基尼指數: g
ini(
d,a2
=1)=
0.32
gini(
d,a3
=1)=
0.27
由於a2和a
3 只有乙個切分點,所以它們就是最優切分點。
求特徵a
4 的基尼指數: g
ini(
d,a4
=1)=
0.36
gini(
d,a4
=2)=
0.47
gini(
d,a4
=3)=
0.32
gini(
d,a4
=3)
最小,所以a4
=3 為
a4的最優切分點。在a
1,a2
,a3,
a4幾個特徵中,gi
ni(d
,a3=
1)=0.27
最小,所以選擇特徵a3
為最優特徵,a3
=1為其最優切分點。於是根結點生成兩個子結點,乙個是葉結點。對另乙個結點繼續使用以上方法在a1
,a2,
a4中選擇最優特徵及其最優切分點,結果是a2
=1,以此計算得知,所得結點都是葉結點。
有關剪枝的內容請參考統計學方法和
CART決策樹剪枝個人理解
cart決策樹剪枝個人理解 在看統計學習方法關於cart樹的剪枝是,感覺書上講得很迷惑,因此基於其他部落格以及書上內容得出自己的理解。首先確定cart樹的損失函式 c t c t t 式中c t 表示 的精度,即子樹t的錯誤數量 測試集數量,t 表示子樹t的葉子節點數量 c t 表示子樹t的整體損失...
決策樹和CART決策樹
首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...
決策樹(CART演算法)
分類問題中,假設有k個類,樣本點屬於第k類的概率為p kp k pk 則概率分布的基尼指數定義為 其中p kp k pk 表示選中的樣本屬於k kk類別的概率,則這個樣本被分錯的概率為 1 pk 1 p k 1 pk 對於給定的樣本集合d,其基尼指數為 這裡的c kc k ck 是d中屬於第k類的樣...