首先是取名詞,我們要把名詞取出來,是因為一篇文件,名詞最能夠代表這一篇文件屬於哪一類的,其他的形容詞,副詞之類的詞語並不能很好的代表某一類文件。所以要取名詞,這個當然是用正規表示式了。
我們看一下分詞結果:名詞詞性的詞分詞工具會用n表示,那麼我們就用正規表示式去匹配n就好了。
根據廖老師的python教程,.n能匹配任意字元,*表示有任意個,那我我們把正規表示式寫成:.*n。這個意思就是不管這一行前邊有任意個任何字元,只要後邊有乙個n,就表示匹配成功,我們就可以做其他操作,比如把這一行儲存。
然後就是去停用詞,就是一些完全沒用的廢話,助詞或者語氣詞之類的,停用詞表是老師提供的。
我們先把停用詞文件做分詞處理,然後把停用詞裡的名詞取出來,這樣我們對一篇文件做完取名詞操作之後就可以直接去掉名詞性質的停用詞了。
下面是示例**,當然不一定對,而且我發現停用詞去的並不乾淨,僅供參考哈。
# -*- coding: utf-8 -*-
import re
f = open('/users/yangshaoby/desktop/10.txt', 'rb')
for x in range(1,1000):
p = f.readline()
print p
if re.match(r'.*n', p):
print 'ok'
st = open('/users/yangshaoby/desktop/stopwords.txt', 'rb')
st1 = st.read()
if p not in stl:
b = open('/users/yangshaoby/desktop/100.txt', 'a')
b.write (p)
b.close()
print 'stop'
我的停用詞文件分詞取名詞後的結果命名為stopwords.txt儲存在桌面上。 資料探勘 文字分類(一) 綜述
本學期上了北郵王曉茹老師的資料倉儲與資料探勘課程,實驗一便是資料探勘入門級的實驗 文字分類。第一次自己寫 花了很長時間終於把實驗做完了,在這裡記錄一下。一,先簡單說下實驗的工具和環境。環境 python2.7 python學習建議廖雪峰老師的 分詞工具 中科院張華平博士的漢語詞法分析系統ictcla...
資料探勘競賽題目 文字分類
使用搜狗語料庫進行自動文字分類 新聞語料中類別與目錄的對應關係如下,共十大類別 在data資料夾中有訓練資料集 train 及測試資料集 test 其中train目錄中是已經分類好的文件,每個類別中有6000個文件,而test目錄中共包含20000個所有類別的文件,需要參賽者設計演算法進行自動歸類。...
NLP(五)文字分類
1 svm 2 樸素貝葉斯 3 lda 本文給出 和使用中的效果 1 svm svm做文字分類準確率並不高,而且耗時,訓練集少時推薦邏輯回歸 from sklearn.feature extraction.text import tfidfvectorizer from sklearn.svm im...