1
)df(documentfrequency)
文件頻率
df:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 2
)mi(mutualinformation)
互資訊法
互資訊法用於衡量特徵詞與文件類別直接的資訊量。
如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向"低頻
"的特徵詞。
相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。 3
)(information gain)
資訊增益法
通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。 4
)chi(chi-square)
卡方檢驗法
利用了統計學中的
"假設檢驗
"的基本思想:首先假設特徵詞與類別直接是不相關的
如果利用
chi分布計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。 5
)wllr(weighted loglikelihood ration)
加權對數似然 6
)wfo
(weightedfrequency and odds
)加權頻率和可能性
文字分類 特徵選擇方法
文字分類 特徵選擇方法 一 概念 特徵詞選擇和特徵詞權重 1.特徵詞選擇 特徵詞選擇是為了降低文字表示的維度,而特徵詞權重是為了表示文字表示中每乙個特徵項的重要程度。常見的且基礎的文字特徵選擇的演算法有基於文件頻率 documentfrequency 資訊增益 informationgain,ig ...
文字分類 特徵選擇
特徵選擇技術的比較 pso,pca和資訊增益 作為與基於pso的特徵選擇的比較,我們利用pca和資訊增益來減少我們問題的特徵空間的維度。主成分分析 pca 51 是一種有用的統計技術,通過減少維數來壓縮資料。它通過遺漏冗餘資訊找到高維資料中的模式並將其轉換為較低維度。pca通過計算協方差矩陣的特徵值...
文字分類特徵選擇方法之資訊增益
前文提到過,除了開方檢驗 chi 以外,資訊增益 ig,information gain 也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化,關聯性越強,特徵得分越高...