資訊增益:偏向取值較多的特徵
資訊增益比:偏向取值較少的特徵
基尼:被選中的概率乘以被分錯的概率
資訊增益準則對那些屬性的取值比較多的屬性有所偏好,也就是說,採用資訊增益作為判定方法,會傾向於去選擇屬性取值比較多的屬性。那麼,選擇取值多的屬性為什麼就不好了呢?舉個比較極端的例子,如果將身份證號作為乙個屬性,那麼,其實每個人的身份證號都是不相同的,也就是說,有多少個人,就有多少種取值,它的取值很多吧,讓我們繼續看,如果用身份證號這個屬性去劃分原資料集
先通過一遍篩選,先把資訊增益低於平均水平的屬性剔除掉,之後從剩下的屬性中選擇資訊增益率最高的,這樣的話,相當於兩方面都得到了兼顧。
決策樹 特徵選擇
決策樹的特徵選擇標準有兩種 資訊增益,資訊增益比 0.熵指不穩定程度。熵越大,不穩定程度越高,則越容易 決策樹中也指某結點內含資訊量較多,分類能力較差.計算公式 其中,pi為隨機變數x在樣本空間的分布,即第i個型別出現的概率。為i到n求和。n為特徵取值種類數量.ps 為何使用這樣的乙個函式?xlog...
決策樹之特徵選擇
一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即結點的 純度 purity 越來越高。假設當前樣本集合 d 中第 k 類樣本所佔的比例為 p k k 1,2,mathcal y 離散屬性 a 有 v 個可能的取值 若使用 a 來對樣本集 d 進行劃分,則會產...
決策樹和CART決策樹
首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...