決策樹構建過程中的特徵選擇是非常重要的一步。特徵選擇是決定用哪個特徵來劃分特徵空間,特徵選擇是要選出對訓練資料集具有分類能力的特徵,這樣可以提高決策樹的學習效率。如果利用某乙個特徵進行分類與隨機分類的結果沒有很大的差別,則稱這個特徵是沒有分類能力的。這樣的特徵可以丟棄。常用的特徵選擇的準則是資訊增益和資訊增益比。
要了解資訊增益,我們要先知道熵與條件熵的定義。
熵是無序度的度量,在資訊理論和統計中,熵表示隨機變數不確定性的度量。假設
x 是乙個取有限值的離散型隨機變數,它的概率分布如下: p(
x=xi
)=pi
,i=1
,2,…
,n則隨機變數
x 的熵定義為: h(
x)=−
∑i=1
npilogpi
若pi=
0,定義
0log0=
0 ,從上式中可以看到,熵只依賴於
x 的分布,而與
x的取值沒有關係。熵越大,隨機變數的不確定性就越大。故可以將x的
熵記作h
(p):
h(p)=−∑
i=1n
pilogpi
設有隨機變數(x
,y) ,其聯合概率分布為: p(
x=xi
,y=y
j)=p
ij,i
=1,2
,…,n
;j=i
=1,2
,…,m
條件熵h(
y|x)
表示在已知隨機變數
x 的條件下隨機變數
y的不確定性。隨機變數
x 給定的條件下隨機變數
y的條件熵h(
y|x)
定義為x 給定條件下
y的條件概率分布的熵對
x 的數學期望: h(
y|x)
=∑i=
1npi
h(y|
x=xi
),pi
=p(x
=xi)
,i=1
,2,…
,n當熵和條件熵中的概率由資料估計得來時,所對應的熵和條件熵稱為經驗熵和經驗條件熵。
資訊增益表示得知特徵
x 的資訊而使得類
y的資訊不確定性減少的程度。
資訊增益特徵
a對訓練
資料集d
的資訊增
益g(d
,a),
定義為集
合d的經
驗熵h(
d)與特
徵a給定
條件下d
的經驗條
件熵h(
d|a)
之差:
g(d,
a)=h
(d)−
h(d|
a)資訊增益大的特徵具有更強的分類能力。
根據資訊增益準則進行特徵選擇的方法是:對訓練資料集
d ,計算其每個特徵的資訊增益,並比較它們的大小,選擇最大的特徵。通過資訊增益選取特徵的時候,存在偏向於選擇取值較多的特徵的問題。使用資訊增益比可以糾正這一問題。
資訊增益比特徵
a對訓練
資料集d
的資訊增
益比gr
(d,a
)定義為
其資訊增
益g(d
,a)與
訓練資料
集d關於
特徵a的
值的熵h
a(d)
之比,即
:gr(
d,a)
=g(d
,a)h
a(d)
ha(d
)=−∑
i=1n
|di|
|d|log2|
di||
d|n 是特徵a取值的個數。
機器學習 決策樹模型
決策樹通過生成決策規則來解決分類和回歸問題。整個模型非常容易理解,是所謂的白盒模型。比如通過年齡 職業 年齡 房產來評估信用值,文末有sklearn實現 類似於流程圖的樹結構,由乙個根節點,一組內部節點和一組葉節點組成。每個內部節點 包括根節點 表示在乙個屬性上的測試,每個分支表示乙個測試輸出,每個...
機器學習筆記 決策樹學習
決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...
機器學習 決策樹
一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...