# 根據電影中的型別,票房,產地,**去不去看電影
import csv
from sklearn.feature_extraction import dictvectorizer
from sklearn import preprocessing
from sklearn import tree
# 匯入資料集,
film_data =
open
('film.csv'
,'rt'
)reader = csv.reader(film_data)
# 表頭資料
headers =
next
(reader)
# 列印一下資料集的頭部
print
(headers)
# **資料列表
feature_list =
# 結果集列表
result_list =
# 便利列印資料,組裝成新的資料
for row in reader:
# print(row[1:-1])
# print(headers[1:-1])-1
])dict
(zip
(headers[1:
-1], row[1:
-1])
))print
(result_list, feature_list)
# ['yes', 'yes', 'yes', 'yes', 'yes', 'yes', 'no', 'no']
# [, , , , , , , ]
# 呼叫sklearn 自帶的特徵提取類
vec = dictvectorizer(
)# 傳入訓練資料模型
dummyx = vec.fit_transform(feature_list)
.toarray(
)"生成的這個二維陣列 是根據傳入資料特徵值進行分類的,如果特徵值比比較多的話,二維陣列會比較大,此二維陣列前四位是代表國家,中間兩位票房,最後三位資料代表電影型別,測試資料也是一樣"
"""[[0. 0. 0. 1. 0. 1. 0. 1. 0.]
[1. 0. 0. 0. 0. 1. 0. 0. 1.]
[1. 0. 0. 0. 0. 1. 0. 1. 0.]
[1. 0. 0. 0. 1. 0. 1. 0. 0.]
[0. 1. 0. 0. 1. 0. 1. 0. 0.]
[0. 1. 0. 0. 0. 1. 0. 1. 0.]
[0. 0. 1. 0. 0. 1. 0. 0. 1.]
[0. 1. 0. 0. 0. 1. 1. 0. 0.]]
"""#標籤二值化
dummyy = preprocessing.labelbinarizer(
).fit_transform(result_list)
"""[[1]
[1][1]
[1][1]
[1][0]
[0]]
"""print
(dummyx)
print
(dummyy)
# 呼叫sklearn 的 決策樹 訓練模型
clf = tree.decisiontreeclassifier(criterion=
'entropy'
, random_state=0)
clf = clf.fit(dummyx, dummyy)
# print('clf:' + str(clf))
a =([[
0,0,
0,1,
0,1,
0,1,
0]])
b =([[
0,0,
1,0,
0,1,
0,1,
0]])
c =([[
1,0,
0,0,
1,0,
1,0,
0]])
# 傳入資料 驗證訓練模型
predict_result = clf.predict(a)
print
('**結果'
+str
(predict_result)
)
SKlearn之決策樹
決策樹是一種非引數的監督學習方法。模組 sklearn.tree sklearn建模的步驟 1 選擇並建立模型 例 clf tree.decisiontreeclassifier 2 提供資料訓練模型 例 clf clf.fit x train,y train 3 獲取需要的資訊 例 result ...
sklearn 決策樹例子 決策樹 規則挖掘應用
本次主要簡單介紹下決策樹在風控規則中的簡單應用,讓讀者快速入門。在後續的文章中,會逐一介紹決策樹的各種演算法原理,如資訊增益 id3演算法 c4.5演算法 c5.0演算法等,希望感興趣的朋友可以關注下。前言 決策樹是資料探勘中十分常用的分類方法,歸屬於機器學習中的監督學習演算法。監督學習就是給出一堆...
Sklearn決策樹的應用
sklearn庫中的決策樹有兩種 分類決策樹 回歸決策樹。下面我們通過具體的案例學習如何使用這兩種決策樹。分類決策樹 分類決策樹 decisiontreeclassifier 就是通過對訓練集的訓練,然後對測試集中的資料做出正確的分類。這個 反映了銀行通過對乙個人的評判,然後決定是否給予其貸款 序號...