為了加深理解,自己實現了多項式樸素貝葉斯對文字的自動分類。文字樣本採用了搜狗提供的文字分類語料庫.
相關程式已經放在github上:
*****bayesmain:主函式類
defaultstopwordshandler:單詞停用處理類
multinomialmodel*****bayes:多項式樸素貝葉斯實現類
trainsampledatamanager:訓練樣本管理器
chinesetokenizer:中文分詞類
訓練樣本採用了搜狗的mini版本,該檔案已經放入在lib目錄下。
中文分詞採用es-ik進行分詞。
使用的時候,在*****bayesmain類改變sample_data值即可。
如果你使用的文字分類樣本較多,在執行*****bayesmain是設定jvm引數,已防止溢位。
-verbose:gc -xms1024m -xmx1024m
sklearn 樸素貝葉斯文字分類5
在這次的貝葉斯試驗中,用到了交叉驗證,就是假如把資料集分成10份,每次取其中的乙份作為test資料,會得到10個測試的準確率,我們可以求10份的平均值,作為這一次的準確率。當我們求出測試集的矩陣大小為 18846,173452 我們可以看出17萬個詞,其實在選擇特徵時用不了這麼多,接下來我們看一下選...
文字分類演算法之 貝葉斯文字分類演算法
文字分類過程 例如文件 good good study day day up 可以用乙個文字特徵向量來表示,x good,good,study,day,day up 在文字分類中,假設我們有乙個文件d x,類別 c又稱為標籤。我們把一堆打了標籤的文件集合 作為訓練樣本,x c 例如 對於這個只有一句...
TextBlob實戰之樸素貝葉斯文字分類
1.準備資料集 訓練集和測試集 train i love this sandwich.pos this is an amazing place pos i feel very good about these beers.pos this is my best work.pos what an aw...