白話特徵選擇系列 開篇

2021-09-02 03:53:02 字數 955 閱讀 1934

[size=medium] 孟子:「人之初,性本善」。

荀子:「人之初,性本惡」。

你:?當我們初次見到乙個人的時候,我們往往會根據乙個人的外貌來進行一下判定,這個人長的面善,應該是個好人;瞧這個人長的這個樣子,一看就不是什麼好人。但是如果是乙個相貌平平,毫無所知的陌生人,我們多半會回答這個人我不認識,不知道是好人還是壞人,因為這樣回答最安全正確。而當他告訴我們名字時,如果我們聽過他以前做過好事,那麼我們多半會覺得他是好人;反之如果乙個人進過監獄,我們一般會認定他是壞人。

上面介紹的是人的好壞分類,文字分類也是類似情況,只不過被分類的物件變成了文字(文章|書籍等等)。文字分類應用的具體應用方面有很多,比如判斷一篇文章是武俠類的還是言情類的,傳播的是正能量還是負能量(**),需不需要***老師來打假看看是不是找人代筆的。

人腦相對於電腦來說是很高階的,我們在閱讀文章分類的時候有自己的感性認識,結合自己已經掌握的知識進行彙總,然後分類。文章的段落安排,上下文資訊對於人的文字分類都是很重要的。但是人對文字的這種感性認識,如何讓計算機理解目前還是乙個難題。我們需要找到一種方法來讓計算機能夠理解和表示文字。

把文字表示成計算機可以理解的形式,就是文字表示。目前文字表示模型主要是gerard salton和mcgill於2023年提出的向量空間模型(vsm)。向量空間模型的基本思想是把文件簡化為特徵項的權重為分量的向量表示,權重用詞頻表示.詞頻分為絕對詞頻和相對詞頻.絕對詞頻,即用詞在文字中出現的頻率表示文字;相對詞頻,即為歸一化的詞頻,其計算方法主要運用tf-idf公式。

由於文字資料的半結構化甚至於無結構化的特點,當用特徵向量對文件進行表示的時候,特徵向量通常會達到幾萬維甚至於幾十萬維.但是大家想一下,大部分文章僅僅千餘字,包含的詞至多幾百,為了表示這樣乙個文字,卻要使用上萬維的向量,這是對儲存資源和計算能力很大的浪費。所以尋求一種有效的特徵降維方法,降低特徵空間的維數,提高分類的效率和精度,成為文字自動分類中至關重要的問題。

下面我就幾種特徵選擇方法進行介紹。[/size]

特徵選擇 單變數特徵選擇

1.selectkbest可以依據相關性對特徵進行選擇,保留k個評分最高的特徵。方差分析 分類問題使用f classif,回歸問題使用f regression。f classif 分類任務 跟目標的分類,將樣本劃分成n個子集,s1,s2,sn,我們希望每個子集的均值 1,2,n不相等。我們假設h0 ...

開篇 IT監控系統系列

7月乙個朋友讓我幫忙做乙個監控和運維自動化方面的交流,主要的目的是他們公司正準備對一些開源軟體進行選型,用以開發自有的系統監控和運維系統。所以開始就開始對自己09年開始的監控系統開發實施經驗的整理,既然整理了本著share的思路開個blog,將這些經驗分享給需要的人。介紹一下自己,現在供職與華南一家...

EPLAN API 入門系列 開篇

eplan作為乙個電氣行業的軟體,因為它的專業性,國際化等諸多特點,更因為它引領著整個電氣行業設計的標準,已經越來越開始被國內先進的自動化行業所認知並接受。eplan api在網上的資料很少,而且api help也不公開,所以在很大程式上限制了國內eplan的推廣及應用,當然這跟德國總部對國內的推廣...