決策樹的特徵選擇標準有兩種:資訊增益,資訊增益比
0.熵指不穩定程度。熵越大,不穩定程度越高,則越容易**。決策樹中也指某結點內含資訊量較多,分類能力較差.
計算公式:
其中,pi為隨機變數x在樣本空間的分布,即第i個型別出現的概率。∑為i到n求和。n為特徵取值種類數量.
ps:為何使用這樣的乙個函式?xlogx的函式影象:
從影象中可以看出,在pi取0.5附近時函式取到極大值,表明各個子樣本空間數量相當,此時熵最大,更容易**.另外,特徵值n越大,熵越高.
條件熵條件熵指的是在隨機變數x確定的情況下,隨機變數y的不確定性,表示為h(y|x)
其中,pi=p(x=x
i).基於x求y的熵,再在x的所有樣本空間求數學期望(均值).
1.資訊增益
定義g(d,a)為資料集d在特徵a上的資訊增益.
定義為集合d的熵與特徵a給定下的條件熵的差.
理解為熵在給定特徵的限制條件後,熵降低值.資訊增益越大,即熵降低程度大,表明在給定條件後(增加樹的決策分支),熵變得更小了,此時,增加此結點分支後,此結點下的樣本更純淨,也就是分類功能更強。
2.資訊增益比
相對於資訊增益是做差值,增益比是做比值。
id3使用資訊增益最大的標準選擇分支結點.
c4.5使用資訊增益比最大來選擇分支結點.
決策樹之特徵選擇
一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即結點的 純度 purity 越來越高。假設當前樣本集合 d 中第 k 類樣本所佔的比例為 p k k 1,2,mathcal y 離散屬性 a 有 v 個可能的取值 若使用 a 來對樣本集 d 進行劃分,則會產...
使用決策樹進行特徵選擇
使用決策樹進行特徵選擇 決策樹也是常用的特徵選取方法。使用決策樹集合 如隨機森林等 也可以計算每個特徵的相對重要性。這些重要性能夠輔助進行特徵選擇。該方法主要使用資訊增益率來進行特徵選擇。from sklearn import datasets from sklearn import metrics...
決策樹選擇
資訊增益 偏向取值較多的特徵 資訊增益比 偏向取值較少的特徵 基尼 被選中的概率乘以被分錯的概率 資訊增益準則對那些屬性的取值比較多的屬性有所偏好,也就是說,採用資訊增益作為判定方法,會傾向於去選擇屬性取值比較多的屬性。那麼,選擇取值多的屬性為什麼就不好了呢?舉個比較極端的例子,如果將身份證號作為乙...