在文字分類中利用資訊增益進行特徵提取
資訊增益體現了特徵的重要性,資訊增益越大說明特徵越重要
假設資料中有k類:
每類出現的概率是:
各類的資訊熵計算公式:
對某個詞彙word需要計算word在所有類別**現的概率:
就是:出現word的檔案數 除以總檔案數
word不出現的概率:
就是沒有出現word的檔案數 除以總檔案數
條件熵的計算:
這裡我們用到了t表示word這個特徵
其中表示:出現word的檔案的資訊熵
計算方式:
其中:表示出現word的情況下是ci類的概率,計算方式:ci類**現word的檔案數 除以 總的出現word的檔案數
表示不出現word的條件熵
計算方式
其中表示沒有出現word的情況下是ci類的概率,計算方式:ci類中沒有出現word的次數 除以 總類中沒有出現word的次數
總的資訊增益計算公式
資訊熵體現了資訊的不確定程度,熵越大表示特徵越不穩定,對於此次的分類,越大表示類別之間的資料差別越大
條件熵體現了根據該特徵分類後的不確定程度,越**明分類後越穩定
資訊增益=資訊熵-條件熵,越大說明熵的變化越大,熵的變化越大越有利於分類
特徵選擇方法之資訊增益
前文提到過,除了開方檢驗 chi 以外,資訊增益 ig,information gain 也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化,關聯性越強,特徵得分越高...
特徵選擇方法之資訊增益
本章主要討論下特徵生成中的 資訊增益方法 在資訊增益中,重要性的衡量標準就是看特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,該特徵越重要。因此先回憶一下資訊理論中有關資訊量 就是 熵 的定義。說有這麼乙個變數x,它可能的取值有n多種,分別是x1,x2,xn,每一種取到的概率分別是p1,p2,pn,...
特徵工程(3) 特徵選擇 資訊增益
資訊增益,基於資訊熵來計算,它表示資訊消除不確定性的程度,可以通過資訊增益的大小為變數排序進行特徵選擇。資訊量與概率呈單調遞減關係,概率越小,資訊量越大。資訊量的數學定義如下式所示,u表示傳送的資訊,則 資訊熵表示資訊量的數學期望,是信源發出資訊前的平均不確定性,也稱為先驗熵。資訊熵的定義如下式所示...