使用搜狗語料庫進行自動文字分類
新聞語料中類別與目錄的對應關係如下,共十大類別:
在data資料夾中有訓練資料集(train)及測試資料集(test),其中train目錄中是已經分類好的文件,每個類別中有6000個文件,而test目錄中共包含20000個所有類別的文件,需要參賽者設計演算法進行自動歸類。
構建優秀的分類器,將test目錄中文件進行自動歸類
提交最終分類結果,即將test中的各個文件自動劃分到c000007、c000008、….、 c000024等目錄後打包提交.
評分演算法:f1-measure: f1
=2p∗
rp+r
,p是準
確率,r
是召回率
對於每個類別分別單獨計算其f1值,然後求10個類別的f1平均值作為最終評分結果。
資料探勘競賽題目 電影推薦
通過對使用者評分行為的分析,挖掘使用者的興趣及其變化規律,然後 使用者對其他電影的評分。本次比賽,我們提供了1千萬左右的電影評分資料,每條評分記錄都有時間戳 隱匿了具體時間,只保證順序不變 評分分為5級,1分最低,5分最高。我們抽取了超過800萬條評分記錄,作為訓練集,資料檔案名為r1.train,...
資料探勘 文字分類(五)
首先是取名詞,我們要把名詞取出來,是因為一篇文件,名詞最能夠代表這一篇文件屬於哪一類的,其他的形容詞,副詞之類的詞語並不能很好的代表某一類文件。所以要取名詞,這個當然是用正規表示式了。我們看一下分詞結果 名詞詞性的詞分詞工具會用n表示,那麼我們就用正規表示式去匹配n就好了。根據廖老師的python教...
資料探勘 文字分類(一) 綜述
本學期上了北郵王曉茹老師的資料倉儲與資料探勘課程,實驗一便是資料探勘入門級的實驗 文字分類。第一次自己寫 花了很長時間終於把實驗做完了,在這裡記錄一下。一,先簡單說下實驗的工具和環境。環境 python2.7 python學習建議廖雪峰老師的 分詞工具 中科院張華平博士的漢語詞法分析系統ictcla...