實際上資訊增益準則對可取數值較多的屬性有所偏好。資訊增益的公式如下: ga
in(d
,a)=
ent(
d)−∑
v1|d
v||d
|⋅en
t(dv
)
如果可取數值越多,則上式的−∑
v1|d
v||d
|⋅en
t(dv
) 越大,最終導致資訊增益gain(d,a)越大。為了減少這種特點可能帶來的不良影響,c4.5決策樹演算法不直接利用資訊增益,而是採用」增益率」(gain ratio)來選擇最優劃分屬性。增益率定義為: ga
inra
tio(
d,a)
=gai
n(d,
a)iv
(a)
其中 iv(
a)=−
∑v1|
dv||
d|lo
g2|d
v||d
|
上式iv(a)稱為屬性a的」固有值」(intrinsic value)[quinlan,1993]。同樣的道理,屬性a的可能取值數越多(即v越大),iv(a)的值通常會越大。
和id3演算法類似,增益率準則同樣有個問題,即增益率準則對可取值數目較少的屬性有所偏好,因此在c4.5演算法中,並不是直接選擇增益率大的屬性進行劃分,而是使用了乙個啟發式:先從候選劃分屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的屬性。
cart(classification and regression tree)決策樹使用」基尼指數「(gini index)來選擇劃分屬性。資料集d的純度可用基尼值來度量: gi
ni(d
)=∑m
k=1∑
k′≠k
pkpk
′=1−
∑mv=
1p2k
直觀來說,gini(d)反映了從資料集d中隨機抽取兩個樣本,其類別標記不一致的概率。因此,gini(d)越小,則資料集d的純度越高。
屬性a的基尼指數定義為:gi
niin
dex(
d,a)
=∑vv
=1|d
v||d
|gin
i(dv
)
因此,在決策樹劃分屬性選擇的時候,選擇基尼指數最小的屬性作為最優劃分屬性。
so much for today!@_@
機器學習演算法2 決策樹
本文總結於 machine learning in action 一書 一.決策樹的一般流程 1.收集資料 可以使用任何方法 2.準備資料 數構造演算法只適應於標稱型資料,因此數值型資料必須離散。3.分析資料 可以使用任何方法,構造樹完成之後,我們應該檢查圖形是否符合預期。4.訓練資料 構造樹的資料...
機器學習(2) 決策樹
前言 決策樹是一種機器學習的方法。決策樹是一種樹形結構,其中每個內部節點表示乙個屬性上的判斷,每個分支代表乙個判斷結果的輸出,最後每個葉節點代表一種分類結果。決策樹需要監管學習。監管學習就是給出一堆樣本,每個樣本都有一組屬性和乙個分類結果,也就是分類結果已知,那麼通過學習這些樣本得到的決策樹,這個決...
機器學習 2 決策樹
用年齡 收入 是否學生 信用度高低來判斷是否購買電腦為例子 資訊 如果待分類的事物可能劃分在多個類之中,則符號xi的資訊定義為 上例中,買電腦的概率為9 14,那麼yes的資訊為 同理,no的資訊為 資訊熵 即資訊期望值。公式如下 即 在決策樹id3演算法中,選擇使用資訊獲取量 informatio...