特徵選擇之資訊增益

在文字分類中利用資訊增益進行特徵提取

資訊增益體現了特徵的重要性，資訊增益越大說明特徵越重要

假設資料中有k類：

每類出現的概率是：

各類的資訊熵計算公式：

對某個詞彙word需要計算word在所有類別**現的概率：

就是：出現word的檔案數除以總檔案數

word不出現的概率：

就是沒有出現word的檔案數除以總檔案數

條件熵的計算：

這裡我們用到了t表示word這個特徵

其中表示：出現word的檔案的資訊熵

計算方式：

其中：表示出現word的情況下是ci類的概率，計算方式：ci類**現word的檔案數除以總的出現word的檔案數

表示不出現word的條件熵

計算方式

其中表示沒有出現word的情況下是ci類的概率，計算方式：ci類中沒有出現word的次數除以總類中沒有出現word的次數

總的資訊增益計算公式

資訊熵體現了資訊的不確定程度，熵越大表示特徵越不穩定，對於此次的分類，越大表示類別之間的資料差別越大

條件熵體現了根據該特徵分類後的不確定程度，越**明分類後越穩定

資訊增益=資訊熵-條件熵，越大說明熵的變化越大，熵的變化越大越有利於分類

特徵選擇方法之資訊增益

前文提到過，除了開方檢驗 chi 以外，資訊增益 ig，information gain 也是很有效的特徵選擇方法。但凡是特徵選擇，總是在將特徵的重要程度量化之後再進行選擇，而如何量化特徵的重要性，就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化，關聯性越強，特徵得分越高...

特徵選擇方法之資訊增益

本章主要討論下特徵生成中的資訊增益方法在資訊增益中，重要性的衡量標準就是看特徵能夠為分類系統帶來多少資訊，帶來的資訊越多，該特徵越重要。因此先回憶一下資訊理論中有關資訊量就是熵的定義。說有這麼乙個變數x，它可能的取值有n多種，分別是x1，x2，xn，每一種取到的概率分別是p1，p2，pn，...

特徵工程（3）特徵選擇資訊增益

資訊增益，基於資訊熵來計算，它表示資訊消除不確定性的程度，可以通過資訊增益的大小為變數排序進行特徵選擇。資訊量與概率呈單調遞減關係，概率越小，資訊量越大。資訊量的數學定義如下式所示，u表示傳送的資訊，則資訊熵表示資訊量的數學期望，是信源發出資訊前的平均不確定性，也稱為先驗熵。資訊熵的定義如下式所示...

特徵選擇之資訊增益

特徵選擇方法之資訊增益

特徵選擇方法之資訊增益

特徵工程（3） 特徵選擇 資訊增益

相關推薦

特徵工程（3）特徵選擇資訊增益