使用決策樹進行特徵選擇

2021-09-25 15:44:11 字數 467 閱讀 8063

"""

使用決策樹進行特徵選擇:

決策樹也是常用的特徵選取方法。使用決策樹集合(如隨機森林等)也可以計算每個特徵的相對重要性。

這些重要性能夠輔助進行特徵選擇。該方法主要使用資訊增益率來進行特徵選擇。

"""from sklearn import datasets

from sklearn import metrics

from sklearn.ensemble import extratreesclassifier

dataset = datasets.load_iris()

model = extratreesclassifier()

model.fit(dataset.data, dataset.target)

#列印出每個特徵的重要性

print(model.feature_importances_)

決策樹 特徵選擇

決策樹的特徵選擇標準有兩種 資訊增益,資訊增益比 0.熵指不穩定程度。熵越大,不穩定程度越高,則越容易 決策樹中也指某結點內含資訊量較多,分類能力較差.計算公式 其中,pi為隨機變數x在樣本空間的分布,即第i個型別出現的概率。為i到n求和。n為特徵取值種類數量.ps 為何使用這樣的乙個函式?xlog...

決策樹之特徵選擇

一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即結點的 純度 purity 越來越高。假設當前樣本集合 d 中第 k 類樣本所佔的比例為 p k k 1,2,mathcal y 離散屬性 a 有 v 個可能的取值 若使用 a 來對樣本集 d 進行劃分,則會產...

決策樹選擇

資訊增益 偏向取值較多的特徵 資訊增益比 偏向取值較少的特徵 基尼 被選中的概率乘以被分錯的概率 資訊增益準則對那些屬性的取值比較多的屬性有所偏好,也就是說,採用資訊增益作為判定方法,會傾向於去選擇屬性取值比較多的屬性。那麼,選擇取值多的屬性為什麼就不好了呢?舉個比較極端的例子,如果將身份證號作為乙...