由於原始**有多個類別,所以也需要處理:
將**的類別進行編碼,由於**的類別有多個,所以用多編碼
from sklearn.preprocessing import multilabelbinarizer
mlb = multilabelbinarizer()
data_label = mlb.fit_transform(data[『categories』].iloc[:])
tf-idf 提取特徵
方法一:tfidfvectorizer
from sklearn.feature_extraction.text import tfidfvectorizer
vectorizer = tfidfvectorizer(max_features=4000)
data_tfidf = vectorizer.fit_transform(data[『text』].iloc[:])
方法二:countvectorizer + tfidftransformer
from sklearn.feature_extraction.text import countvectorizer
from sklearn.feature_extraction.text import tfidftransformer
統計每個詞語的tf值
vectorizer = countvectorizer(max_features=4000)
#該類會統計每個詞語的tf-idf權值
tf_idf_transformer = tfidftransformer()
#將文字轉為詞頻矩陣並計算tf-idf
data_tfidf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(data[『text』].iloc[:])
劃分訓練集和測試集
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data_tfidf, data_label,
test_size = 0.2,random_state = 1)
構建多標籤分類模型
from sklearn.multioutput import multioutputclassifier
from sklearn.*****_bayes import multinomialnb
clf = multioutputclassifier(multinomialnb()).fit(x_train, y_train)
評估from sklearn.metrics import classification_report
print(classification_report(y_test, clf.predict(x_test)))
輸出結果:
第四次作業
扎ogu 典型產品 最高傳輸速率 ieee 802.11a wi fi5 802.11a 43m 450 zyxel p334u 54mbps 1500 zyxel p335u 54mbps 1600 ieee 802.11b d link di 624 a 54mbps 215 linksys w...
第四次作業
作業題一 vs2012 rc在介面上,比beta版更容易使用,彩色的圖示和按照開發 執行 除錯等環境區分的顏色方案讓人愛不釋手。vs2012整合了asp.net mvc 4,全面支援移動和html5,wf 4.5相比wf 4,更加成熟,期待已久的狀態極工作流回來了,更棒的是,現在它的設計器已經支援c...
第四次作業
專案一求1000以內所有偶數的和 includevoid main cout sum includevoid main while i 1000 cout sum includeint main while i 1001 cout 專案3 乘法口訣表 程式設計序,輸出乙個乘法口訣表,形如 1x1 1...