機器學習筆記(八) 決策樹模型的特徵選擇

2021-07-11 13:08:37 字數 1931 閱讀 8291

決策樹構建過程中的特徵選擇是非常重要的一步。特徵選擇是決定用哪個特徵來劃分特徵空間,特徵選擇是要選出對訓練資料集具有分類能力的特徵,這樣可以提高決策樹的學習效率。如果利用某乙個特徵進行分類與隨機分類的結果沒有很大的差別,則稱這個特徵是沒有分類能力的。這樣的特徵可以丟棄。常用的特徵選擇的準則是資訊增益和資訊增益比。

要了解資訊增益,我們要先知道熵與條件熵的定義。

熵是無序度的度量,在資訊理論和統計中,熵表示隨機變數不確定性的度量。假設

x 是乙個取有限值的離散型隨機變數,它的概率分布如下: p(

x=xi

)=pi

,i=1

,2,…

,n則隨機變數

x 的熵定義為: h(

x)=−

∑i=1

npilogpi

若pi=

0,定義

0log0=

0 ,從上式中可以看到,熵只依賴於

x 的分布,而與

x的取值沒有關係。熵越大,隨機變數的不確定性就越大。故可以將x的

熵記作h

(p):

h(p)=−∑

i=1n

pilogpi

設有隨機變數(x

,y) ,其聯合概率分布為: p(

x=xi

,y=y

j)=p

ij,i

=1,2

,…,n

;j=i

=1,2

,…,m

條件熵h(

y|x)

表示在已知隨機變數

x 的條件下隨機變數

y的不確定性。隨機變數

x 給定的條件下隨機變數

y的條件熵h(

y|x)

定義為x 給定條件下

y的條件概率分布的熵對

x 的數學期望: h(

y|x)

=∑i=

1npi

h(y|

x=xi

),pi

=p(x

=xi)

,i=1

,2,…

,n當熵和條件熵中的概率由資料估計得來時,所對應的熵和條件熵稱為經驗熵和經驗條件熵。

資訊增益表示得知特徵

x 的資訊而使得類

y的資訊不確定性減少的程度。

資訊增益特徵

a對訓練

資料集d

的資訊增

益g(d

,a),

定義為集

合d的經

驗熵h(

d)與特

徵a給定

條件下d

的經驗條

件熵h(

d|a)

之差:

g(d,

a)=h

(d)−

h(d|

a)資訊增益大的特徵具有更強的分類能力。

根據資訊增益準則進行特徵選擇的方法是:對訓練資料集

d ,計算其每個特徵的資訊增益,並比較它們的大小,選擇最大的特徵。通過資訊增益選取特徵的時候,存在偏向於選擇取值較多的特徵的問題。使用資訊增益比可以糾正這一問題。

資訊增益比特徵

a對訓練

資料集d

的資訊增

益比gr

(d,a

)定義為

其資訊增

益g(d

,a)與

訓練資料

集d關於

特徵a的

值的熵h

a(d)

之比,即

:gr(

d,a)

=g(d

,a)h

a(d)

ha(d

)=−∑

i=1n

|di|

|d|log2|

di||

d|n 是特徵a取值的個數。

機器學習 決策樹模型

決策樹通過生成決策規則來解決分類和回歸問題。整個模型非常容易理解,是所謂的白盒模型。比如通過年齡 職業 年齡 房產來評估信用值,文末有sklearn實現 類似於流程圖的樹結構,由乙個根節點,一組內部節點和一組葉節點組成。每個內部節點 包括根節點 表示在乙個屬性上的測試,每個分支表示乙個測試輸出,每個...

機器學習筆記 決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...

機器學習 決策樹

一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...