文字分類 特徵選擇

2021-09-24 03:34:59 字數 491 閱讀 4487

特徵選擇技術的比較:pso,pca和資訊增益

作為與基於pso的特徵選擇的比較,我們利用pca和資訊增益來減少我們問題的特徵空間的維度。主成分分析(pca)[51] 是一種有用的統計技術,通過減少維數來壓縮資料。它通過遺漏冗餘資訊找到高維資料中的模式並將其轉換為較低維度。pca通過計算協方差矩陣的特徵值和特徵向量來開始其處理。這些向量提供有關資料中模式的資訊。特徵向量對應於包含最重要模式的最高特徵值,其中向量對應於下乙個最高特徵值包含比第一特定值更少的資訊但是比其他特徵值更多。

資訊增益對應於當資料相對於特定特徵在不同類別之間分布時由於熵的減少而獲得的增益。我們計算每個特徵的資訊增益10並按公升序對它們進行排序。然後選擇前幾個特徵並用於訓練分類器。我們在表17中報告了pca和基於資訊增益的特徵空間縮減技術的結果以及pso的結果。它還報告f n / k的值(各個型號所需的特徵數量)。結果表明,與所有情況下的pca和資訊增益相比,基於pso的方法獲得了更好的結果。此外,應該注意的是,基於pso的模型需要比其他兩種技術相對更少的特徵。

文字分類特徵選擇方法

1 df documentfrequency 文件頻率 df 統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 2 mi mutualinformation 互資訊法 互資訊法用於衡量特徵詞與文件類別直接的資訊量。如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向 低頻 的特徵詞...

文字分類 特徵選擇方法

文字分類 特徵選擇方法 一 概念 特徵詞選擇和特徵詞權重 1.特徵詞選擇 特徵詞選擇是為了降低文字表示的維度,而特徵詞權重是為了表示文字表示中每乙個特徵項的重要程度。常見的且基礎的文字特徵選擇的演算法有基於文件頻率 documentfrequency 資訊增益 informationgain,ig ...

文字分類特徵選擇方法之資訊增益

前文提到過,除了開方檢驗 chi 以外,資訊增益 ig,information gain 也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化,關聯性越強,特徵得分越高...