機器學習過程
1.載入資料集
from sklearn import databases#載入sklearn的資料集
databases.load_boston()#載入波士頓房價的資料集
databases.load_iris()#載入鳶尾花資料集
databases.load_digits()#載入手寫識別數字的資料集
data.data為樣本資料,data.target類別資料
2.資料分割
from sklearn.model_selection import train_test_split#引入分割資料方法
x_train,x_test,y_train,y_test = train_test_spilt(data.data,data.target,test_size=0.2,random_state=0)#
3.選擇模型
(1).knn
from sklearn import neighborsclf = neighbors.kneighborsclassifier(n_neighbors, weights=weights)
(2).決策樹
from sklearn import treeclf = tree.decisiontreeclassifier()
(3).k-means
from sklearn.cluster import kmeanskmeans = kmeans(init=『k-means++』, n_clusters=n_digits, n_init=10)
(4).樸素貝葉斯
from sklearn.*****_bayes import gaussiannbgnb = gaussiannb()
(5).線性回歸
from sklearn import linear_modelreg = linear_model.linearregression()
4.模型的訓練
model.fit(x_train,y_train)
5.模型的**
model.predict(x_test)
6.模型的評測
(1).精度 precision_score
(2).召回率 recall_score
(3).f1得分 f1_score
(4).準確率 accuracy_score
from sklearn.metrics import precision_score,
recall_score,accuracy_score, f1_score
(5).交叉驗證
from sklearn.model_selection import cross_val_score
scores = cross_val_score(svc,x,y,cv=10,scoring=』』)
7.模型的儲存
from sklearn.externals import joblib
joblib.dump(svc, 『d:/filename.pkl』)
svc1 = joblib.load(『d:/filename.pkl』)
print(svc1.score(x_test, y_test))
Spark機器學習過程梳理
最近半個月開始研究spark的機器學習演算法,由於工作原因,其實現在還沒有真正開始機器學習演算法的研究,只是做了前期大量的準備,現在把早年學習的,正在學習的和將要學習的一起做個梳理,整理乙個spark機器學習完整流程。本文推薦的書籍注重通俗和實戰。linux的學習推薦 鳥哥的linux私房菜 基礎篇...
機器學習的過程總結
機器學習的過程總結 機器學習的過程總結 提供樣本 d為標籤 建模 假設x與d的關係 y ax b 多元線性回歸 評價y與d的接近程度 loss loss y d 2 優化過程 迴圈迭代 獲取一批樣本xi di 計算dloss xi,di dw 此時的xi和di只是placeholder 執行優化 w...
我的機器學習過程
我的理論學習過程 我在學習機器學習演算法的時候,有乙個主線,就是文字分類,我從網上找到了很多文字的資料集,我在學習大部分演算法的時候都用了機器學習演算法進行文字分類,比如貝葉斯,決策樹,lr,整合學習,lsa knn,plsa knn乃至後面的深度學習方法。做實驗時,比較各中演算法。這樣在乙個主線的...