特徵詞選擇演算法對文字分類準確率的影響(三)

2021-09-08 23:35:43 字數 389 閱讀 1958

08-17 19:26

特徵詞選擇演算法對文字分類準確率的影響(二)

特徵詞選擇演算法對文字分類準確率的影響(一)

本節的題目是:是不是特徵詞的數目越高?vsm模型的特徵維數越高,分類的準確率越高呢?

很多人會想當然地認為應該是vsm模型的維數越高,也即所選的特徵詞數目越多,分類準確率越高。但答案是否定的。我們看下面的這張圖就知道了。

從上面的我們可以看到當文件集規模》2000時(red line,green line cyan line),(我實驗的文件規模分別為200,1000,2000,3000),準確率隨著特徵維數的增加呈現平穩遞減的趨勢

文字分類 特徵選擇

特徵選擇技術的比較 pso,pca和資訊增益 作為與基於pso的特徵選擇的比較,我們利用pca和資訊增益來減少我們問題的特徵空間的維度。主成分分析 pca 51 是一種有用的統計技術,通過減少維數來壓縮資料。它通過遺漏冗餘資訊找到高維資料中的模式並將其轉換為較低維度。pca通過計算協方差矩陣的特徵值...

文字分類特徵選擇方法

1 df documentfrequency 文件頻率 df 統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 2 mi mutualinformation 互資訊法 互資訊法用於衡量特徵詞與文件類別直接的資訊量。如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向 低頻 的特徵詞...

文字分類 特徵選擇方法

文字分類 特徵選擇方法 一 概念 特徵詞選擇和特徵詞權重 1.特徵詞選擇 特徵詞選擇是為了降低文字表示的維度,而特徵詞權重是為了表示文字表示中每乙個特徵項的重要程度。常見的且基礎的文字特徵選擇的演算法有基於文件頻率 documentfrequency 資訊增益 informationgain,ig ...