1、首先載入sklearn的庫;train_test_split--對資料進行分割,分成訓練集和測試集。tfidfvectorizer--生成文章單詞的tfidf矩陣。multinomialnb--sklearn的nb模型。
from sklearn.model_selection import train_test_split
from sklearn.*****_bayes import multinomialnb
from sklearn.feature_extraction.text import tfidfvectorizer
其次,準備資料集,讀取分詞後的文章資料集,載入列表words和label中,通過train_test_split按照4:1的比例進行切分。
接下來,對切分好的訓練集進行向量化,使用tfidfvectorizer,求出文章單詞的tfidf,構建單詞向量。然後通過multinomialnb模型對訓練集的向量資料進行訓練,並且儲存tfidfvectorizer和multinomialnb模型。
最後,讀取測試集中的文章資料,通過tfidfvectorizer模型,進行測試集向量化,放入multinomialnb模型中進行**。
2、同樣,拿出上篇文章中測試用例,通過建立好的模型進行**,看下這篇新聞文章歸屬於哪類。
在pycharm遠端執行下得到**結果屬於「娛樂」類。
sklearn中的線性模型
在skearn中,可以使用sklearn.linear model來建立線性模型 然後用fit函式去訓練 然後用predict去 還可以用score函式去 同時計算 的準確度 import numpy as np import matplotlib.pyplot as plt from sklear...
sklearn中的PCA模型
sklearn中提供了較為豐富的pca模型來解決資料的降維問題,其包括 1 pca 最原始的pca演算法 2 truncatedsvd 原始資料不做中心化處理的pca演算法,可用於文字資料 tf idf處理後 的隱藏語義分析 lsa 3 sparsepca 新增l1正則化處理後的pca演算法,用最小...
Sklearn 模型的儲存與讀取
這個是比較簡單的操作,但是還是想拿出來寫一下,因為很好用的乙個功能 好像也是必須得有的功能 很簡單,主要就是呼叫sklearn.external 的joblib來儲存和載入模型.不過這個呼叫會有warning,提示我們直接用joblib包 from sklearn.externals import ...