文字分類 特徵選擇方法

2021-08-09 14:24:45 字數 1960 閱讀 4932

文字分類-特徵選擇方法

一、概念

特徵詞選擇和特徵詞權重

1.特徵詞選擇:特徵詞選擇是為了降低文字表示的維度,而特徵詞權重是為了表示文字表示中每乙個特徵項的重要程度。

常見的且基礎的文字特徵選擇的演算法有基於文件頻率(documentfrequency)、資訊增益(informationgain,ig)、開方擬和檢驗方法(chi統計)、互資訊(mutualinformation)、潛在語義分析lsa、期望值交叉算熵、文字證據權、termstrength(ts)、gsscoefficient、oddsratio。

2.特徵詞權重:每乙個特徵項的重要程度

常見的演算法:tf-idf,tf的改進,資訊熵的引用

3.區別:特徵詞選擇是為了降低文字表示的維度,而特徵詞權重是為了表示文字表示中每乙個特徵項的重要程度。

二、特徵選擇方法總結

1.文件頻率

詞條的文件頻率(document frequency)是指在預料中出現該詞條的文件的數目。只有當某詞條在較多的文件中出現時才被保留下來,df值低於某個閾值的詞條是低頻詞,將這樣的詞條從原始特徵空間中移除,不但能夠降低特徵空間的維數,而且還有可能提高分類的精度。

df是一種最簡單的詞約簡技術,由於具有相對於預料規模的線性複雜度,所以它能夠容易地被用於大規模的語料特徵選擇中。

缺點:對低文件頻的特徵項不可靠,而且不能說明詞條和類別的相關性

2.互資訊

在互資訊演算法中,採用計算特徵詞 t 和類別 c 之間的相關度:

其中, a 為在類別 c 中特徵詞 t 出現的文件數; b 為在除了類別 c 的其他類別中特徵詞 t 出現的文件數; c 為在類別 c 中特徵詞 t 未出現的文件數; n 為所有類別中的文件數的總和。如果共有 m 個類別,那麼每個特徵詞將得到 m 個相關度值,取這 m 個值的平均值作為每個特徵詞的權值,權值大的特徵詞被保留的可能性大。

3. 資訊增益

資訊增益 (ig) 是公認較好的特徵選擇方法,它刻畫了乙個詞語在文字中出現與否對文字情感分類的影響,即乙個詞語在文字中出現前後的資訊嫡之差。某個詞語的資訊增益值越大,說明它對分類的貢獻就越大。資訊增益的計算見公式:

p(ci) ,表示類別 ci 出現的概率,其實只要用 1 除以類別總數就得到了(這是說你平等的看待每個類別而忽略它們的大小時這樣算,如果考慮了大小就要把大小的影響加進去)。

p(t) ,就是特徵 t 出現的概率,只要用出現過 t 的文件數除以總文件數就可以了

p(ci|t) 表示出現 t 的時候,類別 ci 出現的概率,只要用出現了 t 並且屬於類別 ci 的文件數除以出現了 t 的文件數就可以了

缺點 :資訊增益最大的問題還在於它只能考察特徵對整個系統的貢獻,而不能具體到某個類別上,這就使得它只適合用來做所謂 「 全域性 」 的特徵選擇(指所有的類都使用相同的特徵集合),而無法做 「 本地 」 的特徵選擇(每個類別有自己的特徵集合,因為有的詞,對這個類別很有區分度,對另乙個類別則無足輕重)。

4. 開方擬和檢驗方法 (chi 統計 ) 

開方檢驗最基本的思想就是通過觀察實際值與理論值的偏差來確定理論的正確與否

5. 潛在語義分析lsa

lsa思想方法最初應用於文字資訊檢索領域有效地解決了同義詞和多義詞的問題,通過識別文字中的同義詞, lsa將資訊檢索精度提高了10%--30%

隨著應用領域的不斷拓展, lsi在資訊過濾、資訊分類/聚類、交叉語言檢索、資訊理解、判斷和**等眾多領域中得到了廣泛的應用。(語義,降維)

文字分類特徵選擇方法

1 df documentfrequency 文件頻率 df 統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 2 mi mutualinformation 互資訊法 互資訊法用於衡量特徵詞與文件類別直接的資訊量。如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向 低頻 的特徵詞...

文字分類 特徵選擇

特徵選擇技術的比較 pso,pca和資訊增益 作為與基於pso的特徵選擇的比較,我們利用pca和資訊增益來減少我們問題的特徵空間的維度。主成分分析 pca 51 是一種有用的統計技術,通過減少維數來壓縮資料。它通過遺漏冗餘資訊找到高維資料中的模式並將其轉換為較低維度。pca通過計算協方差矩陣的特徵值...

文字分類特徵選擇方法之資訊增益

前文提到過,除了開方檢驗 chi 以外,資訊增益 ig,information gain 也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化,關聯性越強,特徵得分越高...