資料探勘競賽題目文字分類

使用搜狗語料庫進行自動文字分類

新聞語料中類別與目錄的對應關係如下，共十大類別：

在data資料夾中有訓練資料集（train）及測試資料集（test），其中train目錄中是已經分類好的文件，每個類別中有6000個文件，而test目錄中共包含20000個所有類別的文件，需要參賽者設計演算法進行自動歸類。

構建優秀的分類器，將test目錄中文件進行自動歸類

提交最終分類結果，即將test中的各個文件自動劃分到c000007、c000008、….、 c000024等目錄後打包提交.

評分演算法：f1-measure: f1

=2p∗

rp+r

,p是準

確率,r

是召回率

對於每個類別分別單獨計算其f1值，然後求10個類別的f1平均值作為最終評分結果。

資料探勘競賽題目電影推薦

通過對使用者評分行為的分析，挖掘使用者的興趣及其變化規律，然後使用者對其他電影的評分。本次比賽，我們提供了1千萬左右的電影評分資料，每條評分記錄都有時間戳隱匿了具體時間，只保證順序不變評分分為5級，1分最低，5分最高。我們抽取了超過800萬條評分記錄，作為訓練集，資料檔案名為r1.train,...

資料探勘文字分類（五）

首先是取名詞，我們要把名詞取出來，是因為一篇文件，名詞最能夠代表這一篇文件屬於哪一類的，其他的形容詞，副詞之類的詞語並不能很好的代表某一類文件。所以要取名詞，這個當然是用正規表示式了。我們看一下分詞結果名詞詞性的詞分詞工具會用n表示，那麼我們就用正規表示式去匹配n就好了。根據廖老師的python教...

資料探勘文字分類（一）綜述

本學期上了北郵王曉茹老師的資料倉儲與資料探勘課程，實驗一便是資料探勘入門級的實驗文字分類。第一次自己寫花了很長時間終於把實驗做完了，在這裡記錄一下。一，先簡單說下實驗的工具和環境。環境 python2.7 python學習建議廖雪峰老師的分詞工具中科院張華平博士的漢語詞法分析系統ictcla...

資料探勘競賽題目 文字分類

資料探勘競賽題目 電影推薦

資料探勘 文字分類（五）

資料探勘 文字分類（一） 綜述

相關推薦

資料探勘競賽題目文字分類

資料探勘競賽題目電影推薦

資料探勘文字分類（五）

資料探勘文字分類（一）綜述