文字分類入門(番外篇)特徵選擇與特徵權重計算的區別
在文字分類的過程中,特徵(也可以簡單的理解為「詞」)從人類能夠理解的形式轉換為計算機能夠理解的形式時,實際上經過了兩步驟的量化——特徵選擇階段的重要程度量化和將具體文字轉化為向量時的特徵權重量化。初次接觸文字分類的人很容易混淆這兩個步驟使用的方法和各自的目的,因而我經常聽到讀者有類似「如何使用tfidf做特徵選擇」或者「卡方檢驗量化權重後每篇文章都一樣」等等困惑。
文字分類本質上也是乙個模式識別的問題,因此我想借用乙個更直觀的例子來說說特徵選擇和權重量化到底各自是什麼東西,當然,一旦解釋清楚,你馬上就會覺得文字分類這東西實在白痴,實在沒什麼技術含量,你也就不會再繼續看我的技術部落格,不過我不擔心,因為你已經踏上了更光明的道路(笑),我高興還來不及。
想想通過指紋來識別乙個人的身份,只看乙個人的指紋,當然說不出他姓甚名誰,識別的過程實際上是比對的過程,要與已有的指紋庫比較,找出相同的,或者說相似到一定程度的那乙個。
首要的問題是,人的指紋太複雜,包含太多的位置和幾何形狀,要完全重現乙個人的指紋,儲存和計算都是**煩。因此第一步總是乙個特徵選擇的問題,我們把全人類的指紋都統計一下,看看哪幾個位置能夠最好的區分不同的人。顯然不同的位置效果很不一樣,在有的位置上,我的指紋是是什麼形狀,其他人也大都是這個形狀,這個位置就不具有區分度,或者說不具有表徵性,或者說,對分類問題來說,它的重要程度低。這樣的位置我們就傾向於在識別的時候根本不看它,不考慮它。
那怎麼看誰重要誰不重要呢?這就依賴於具體的選擇方法如何來量化重要程度,對卡方檢驗和資訊增益這類方法來說,量化以後的得分越大的特徵就越重要(也就是說,有可能有些方法,是得分越小的越重要)。
比如說你看10個位置,他們的重要程度分別是:
1 2 3 4 5 6 7 8 9 10
(20,5,10,20,30,15,4,3,7, 3)
顯然第1,第3,4,5,6個位置比其他位置更重要,而相對的,第1個位置又比第3個位置更重要。
識別時,我們只在那些重要的位置上取樣。當今的指紋識別系統,大都只用到人指紋的5個位置(驚訝麼?只要5個位置的資訊就可以區分60億人),這5個位置就是經過特徵選擇過程而得以保留的系統特徵集合。假設這個就是剛才的例子,那麼該集合應該是:
(第1個位置,第3個位置,第4個位置,第5個位置,第6個位置)
當然,具體的第3個位置是指紋中的哪個位置你自己總得清楚。
確定了這5個位置之後,就可以把乙個人的指紋對映到這個只有5個維度的空間中,我們就把他在5個位置上的幾何形狀分別轉換成乙個具體的值,這就是特徵權重的計算。依據什麼來轉換,就是你選擇的特徵權重量化方法,在文字分類中,最常用的就是tfidf。
(10,3,4,20,5)
你注意到他第1個位置的得分(10)比第3個位置的得分(3)高,那麼能說第1個位置比第3個位置重要麼?如果再有一位女同學,她的指紋向量是:
(10,20,4,20,5)
看看,第1個位置得分(10)又比第3個位置(20)低了,那這兩個位置到底哪個更重要呢?答案是第1個位置更重要,但這不是在特徵權重計算這一步體現出來的,而是在我們特徵選擇的時候就確定了,第1個位置比第3個位置更重要。
因此要記住,通過tfidf計算乙個特徵的權重時,該權重體現出的根本不是特徵的重要程度!
那它代表什麼?再看看兩位同學的指紋,放到一起:
(10, 3,4,20,5)
(10,20,4,20,5)
在第三個位置上女同學的權重高於男同學,這不代表該女同學在指紋的這個位置上更「優秀「(畢竟,指紋還有什麼優秀不優秀的分別麼,笑),也不代表她的這個位置比男同學的這個位置更重要,3和20這兩個得分,僅僅代表他們的「不同」。
在文字分類中也是如此,比如我們的系統特徵集合只有兩個詞:
(經濟,發展)
這兩個詞是使用卡方檢驗(特徵選擇)選出來的,有一篇文章的向量形式是
(2,5)
另一篇(3,4)
這兩個向量形式就是用tfidf算出來的,很容易看出兩篇文章不是同一篇,為什麼?因為他們的特徵權重根本不一樣,所以說權重代表的是差別,而不是優劣。想想你說「經濟這個詞在第二篇文章中得分高,因此它在第二篇文章中比在第一篇文章中更重要「,這句話代表什麼意義呢?你自己都不知道吧(笑)。
所以,當再說起使用tfidf來計算特徵權重時,最好把「權重」這個字眼忘掉,我們就把它說成計算得分好了(甚至「得分」也不太好,因為人總會不自覺的認為,得分高的就更重要),或者就僅僅說成是量化。
如此,你就再也不會拿tfidf去做特徵選擇了。
小tips:為什麼有的**裡確實使用了tfidf作特徵選擇呢?
嚴格說來並不是不可以,而且嚴格說來只要有一種方法能夠從一堆特徵中挑出少數的一些,它就可以叫做一種特徵選擇方法,就連「隨機選取一部分」都算是一種,而且效果並沒有差到驚人的地步哦!還是可以分對一大半的哦!所以有的人就用tfidf的得分來把特徵排排序,取得分最大的幾個進入系統特徵集合,效果也還行(畢竟,連隨機選取效果也都還行),怎麼說呢,他們願意這麼幹就這麼幹吧。就像咱國家非得實行戶口制度,這個制度說不出任何道理,也不見他帶來任何好處,但不也沒影響二十一世紀成為中國的世紀麼,呵呵。
文字分類入門(番外篇)特徵選擇與特徵權重計算的區別
在文字分類的過程中,特徵 也可以簡單的理解為 詞 從人類能夠理解的形式轉換為計算機能夠理解的形式時,實際上經過了兩步驟的量化 特徵選擇階段的重要程度量化和將具體文字轉化為向量時的特徵權重量化。初次接觸文字分類的人很容易混淆這兩個步驟使用的方法和各自的目的,因而我經常聽到讀者有類似 如何使用 tfid...
文字分類入門(番外篇)特徵選擇與特徵權重計算的區別
原文 在文字分類的過程中,特徵 也可以簡單的理解為 詞 從人類能夠理解的形式轉換為計算機能夠理解的形式時,實際上經過了兩步驟的量化 特徵選擇階段的重要程度量化和將具體文字轉化為向量時的特徵權重量化。初次接觸文字分類的人很容易混淆這兩個步驟使用的方法和各自的目的,因而我經常聽到讀者有類似 如何使用tf...
文字分類 特徵選擇
特徵選擇技術的比較 pso,pca和資訊增益 作為與基於pso的特徵選擇的比較,我們利用pca和資訊增益來減少我們問題的特徵空間的維度。主成分分析 pca 51 是一種有用的統計技術,通過減少維數來壓縮資料。它通過遺漏冗餘資訊找到高維資料中的模式並將其轉換為較低維度。pca通過計算協方差矩陣的特徵值...