文字分類特徵選擇方法

2021-08-01 23:46:02 字數 670 閱讀 2562

1

)df(documentfrequency)

文件頻率

df:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 2

)mi(mutualinformation)

互資訊法

互資訊法用於衡量特徵詞與文件類別直接的資訊量。

如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向"低頻

"的特徵詞。

相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。 3

)(information gain)

資訊增益法

通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。 4

)chi(chi-square)

卡方檢驗法

利用了統計學中的

"假設檢驗

"的基本思想:首先假設特徵詞與類別直接是不相關的

如果利用

chi分布計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。 5

)wllr(weighted loglikelihood ration)

加權對數似然 6

)wfo

(weightedfrequency and odds

)加權頻率和可能性

文字分類 特徵選擇方法

文字分類 特徵選擇方法 一 概念 特徵詞選擇和特徵詞權重 1.特徵詞選擇 特徵詞選擇是為了降低文字表示的維度,而特徵詞權重是為了表示文字表示中每乙個特徵項的重要程度。常見的且基礎的文字特徵選擇的演算法有基於文件頻率 documentfrequency 資訊增益 informationgain,ig ...

文字分類 特徵選擇

特徵選擇技術的比較 pso,pca和資訊增益 作為與基於pso的特徵選擇的比較,我們利用pca和資訊增益來減少我們問題的特徵空間的維度。主成分分析 pca 51 是一種有用的統計技術,通過減少維數來壓縮資料。它通過遺漏冗餘資訊找到高維資料中的模式並將其轉換為較低維度。pca通過計算協方差矩陣的特徵值...

文字分類特徵選擇方法之資訊增益

前文提到過,除了開方檢驗 chi 以外,資訊增益 ig,information gain 也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化,關聯性越強,特徵得分越高...