scikit-learn提供了一些標準資料集,例如 用於分類的 虹膜和數字資料集和波士頓房價回歸資料集。
在下文中,我們從shell中啟動乙個python直譯器,然後載入iris
和digits
資料集。我們的符號約定是$
表示shell提示符,而>>>
表示python直譯器提示符:
$ python
>>>
from
sklearn
import
datasets
>>> iris
=
datasets.load_iris()
>>> digits
=
datasets.load_digits()
以下是一些推薦的方法,將標準柱狀資料載入到scikit-learn可用的格式中:
可以通過使用python的內建持久化模型(即pickle)將模型儲存在scikit中:
>>>
from
sklearn
import
svm
>>>
from
sklearn
import
datasets
>>> clf
=
svm.svc()
>>> iris
=
datasets.load_iris()
>>> x, y
=
iris.data, iris.target
>>> clf.fit(x, y)
svc(c
=
1.0
, cache_size
=
200
, class_weight
=
none
, coef0
=
0.0
,
decision_function_shape
=
none
, degree
=
3
, gamma
=
'auto'
, kernel
=
'rbf'
,
max_iter
=
-
1
, probability
=
false
, random_state
=
none
, shrinking
=
true
,
tol
=
0.001
, verbose
=
false
)
>>>
import
pickle
>>> s
=
pickle.dumps(clf)
>>> clf2
=
pickle.loads(s)
>>> clf2.predict(x[
0
:
1
])
array([
0
])
>>> y[
0
]
0
在scikit的具體情況下,使用joblib替換pickle(joblib.dump
&joblib.load
)可能會更有意思,這對大資料更有效,但只能持久化到磁碟而不是一串:
>>>
from
sklearn.externals
import
joblib
>>> joblib.dump(clf,
'filename.pkl'
)
之後,您可以載入持久化模型(可能在另乙個python程序中):
>>> clf
=
joblib.load(
'filename.pkl'
)
sklearn工具 學習筆記1
sklearn包 監督學習 sklearn.neighbors 近鄰 svm 支援向量機 kernel ridge 核嶺回歸 discriminant analysis 判別分析 linear model 廣義線性模型 ensemble 整合方法 tree 決策樹 na ve bayes 樸素貝葉斯...
sklearn學習筆記
1.波士頓房價線性回歸模型 from sklearn import datasets from sklearn.linear model import linearregression boston datasets.load boston data x boston.data y boston.t...
sklearn學習筆記
決策樹一般採用整合,具有隨機,不純度最優 from sklearn import tree from sklearn.datasets import load wine from sklearn.model selection import train test split 用於劃分訓練測試集數目 ...