文字分類特徵選擇方法

）df(documentfrequency)

文件頻率

df:統計特徵詞出現的文件數量，用來衡量某個特徵詞的重要性 2

）mi(mutualinformation)

互資訊法

互資訊法用於衡量特徵詞與文件類別直接的資訊量。

如果某個特徵詞的頻率很低，那麼互資訊得分就會很大，因此互資訊法傾向"低頻

"的特徵詞。

相對的詞頻很高的詞，得分就會變低，如果這詞攜帶了很高的資訊量，互資訊法就會變得低效。 3

）(information gain)

資訊增益法

通過某個特徵詞的缺失與存在的兩種情況下，語料中前後資訊的增加，衡量某個特徵詞的重要性。 4

）chi(chi-square)

卡方檢驗法

利用了統計學中的

"假設檢驗

"的基本思想：首先假設特徵詞與類別直接是不相關的

如果利用

chi分布計算出的檢驗值偏離閾值越大，那麼更有信心否定原假設，接受原假設的備則假設：特徵詞與類別有著很高的關聯度。 5

）wllr(weighted loglikelihood ration)

加權對數似然 6

）wfo

（weightedfrequency and odds

）加權頻率和可能性

文字分類特徵選擇方法

文字分類特徵選擇方法一概念特徵詞選擇和特徵詞權重 1.特徵詞選擇特徵詞選擇是為了降低文字表示的維度，而特徵詞權重是為了表示文字表示中每乙個特徵項的重要程度。常見的且基礎的文字特徵選擇的演算法有基於文件頻率 documentfrequency 資訊增益 informationgain,ig ...

文字分類特徵選擇

特徵選擇技術的比較 pso，pca和資訊增益作為與基於pso的特徵選擇的比較，我們利用pca和資訊增益來減少我們問題的特徵空間的維度。主成分分析 pca 51 是一種有用的統計技術，通過減少維數來壓縮資料。它通過遺漏冗餘資訊找到高維資料中的模式並將其轉換為較低維度。pca通過計算協方差矩陣的特徵值...

文字分類特徵選擇方法之資訊增益

前文提到過，除了開方檢驗 chi 以外，資訊增益 ig，information gain 也是很有效的特徵選擇方法。但凡是特徵選擇，總是在將特徵的重要程度量化之後再進行選擇，而如何量化特徵的重要性，就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化，關聯性越強，特徵得分越高...

文字分類特徵選擇方法

文字分類 特徵選擇方法

文字分類 特徵選擇

文字分類特徵選擇方法之資訊增益

相關推薦

文字分類特徵選擇方法

文字分類特徵選擇