資訊增益,基於資訊熵來計算,它表示資訊消除不確定性的程度,可以通過資訊增益的大小為變數排序進行特徵選擇。資訊量與概率呈單調遞減關係,概率越小,資訊量越大。
資訊量的數學定義如下式所示,u表示傳送的資訊,則
資訊熵表示資訊量的數學期望,是信源發出資訊前的平均不確定性,也稱為先驗熵。資訊熵的定義如下式所示 :
(1)當
(2) 當
資訊熵
考慮所有資訊v時,得到後驗熵的期望(又稱為條件熵)如下,隨機干擾引起。
基於資訊增益的特徵選擇有兩種方式,即資訊增益和資訊增益率。
資訊增益,即先驗熵到後驗熵減少的部分,反映了資訊消除不確定性的程度,定義如下:
特徵選擇原理:在進行特徵選擇時,以目標變數作為資訊u,由特徵變數作為資訊v,帶入公式計算資訊增益,通過資訊增益的大小排序,來確定特徵的順序,以此進行特徵選擇。資訊增益越大,表示變數消除不確定性的能力越強。
缺點:當接收訊號v為全不相同的類別時,將會使
為解決資訊增益的不足,在計算資訊增益的同時,考慮接收訊號v的自身特點,定義資訊增益率如下:
當接收訊號v具有較多類別值時,它自己的資訊熵範圍會增大 (即各類別出現的概率相等時,有最大熵,因此當k較大時,其熵的取值範圍更大),而資訊增益率不會隨著增大,從而消除類別數目帶來的影響。
r語言的程式包fselector提供了information.gain函式來計算資訊增益,gain.ratio函式來計算資訊增益率。實現**為:
library(fselector)
#計算資訊增益
wt1
#計算資訊增益率
wt2
result
result
# rownames(result)
colnames(result)
write.csv(result,"gain_result.csv")
特徵選擇之資訊增益
在文字分類中利用資訊增益進行特徵提取 資訊增益體現了特徵的重要性,資訊增益越大說明特徵越重要 假設資料中有k類 每類出現的概率是 各類的資訊熵計算公式 對某個詞彙word需要計算word在所有類別 現的概率 就是 出現word的檔案數 除以總檔案數 word不出現的概率 就是沒有出現word的檔案數...
特徵選擇方法之資訊增益
前文提到過,除了開方檢驗 chi 以外,資訊增益 ig,information gain 也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化,關聯性越強,特徵得分越高...
特徵選擇方法之資訊增益
本章主要討論下特徵生成中的 資訊增益方法 在資訊增益中,重要性的衡量標準就是看特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,該特徵越重要。因此先回憶一下資訊理論中有關資訊量 就是 熵 的定義。說有這麼乙個變數x,它可能的取值有n多種,分別是x1,x2,xn,每一種取到的概率分別是p1,p2,pn,...