《python機器學習基礎教程》筆記
scikit-learn中的所有演算法(預處理、監督學習、無監督學習等)都被實現為類。這些類在scikit-learn中叫作估計器,關於估計器的用法,以上做個小結:
①首先需要將特定類的物件例項化。
②在構建模型物件時,應該設定模型的所有引數。
③所有估計器都有fit方法,fit方法要求第乙個引數總是資料x,用乙個numpy陣列或scipy稀疏矩陣表示,監督演算法還需要有乙個y引數,它是一維numpy陣列,包含回歸或分類的目標值(標籤)。
④要想建立乙個新輸出形式的**,可以用predict方法,要想建立輸入資料x的一種新表示,可以用transform方法。
⑤所有監督模型都有score(x_test,y_test)方法,可以評估模型。
以下列出部分**具體說明一下用法:
1.以無監督學習中的pca為例
(x為不帶標籤的資料矩陣)
from sklearn.decomposition import pca
pca = pca(n_components=2) #例項化並設定引數
pca.fit(x) #呼叫fit方法
x_pca = pca.transform(x) #建立輸入資料x的一種新表示
2.以監督學習中的隨機森林為例
(x_train為訓練資料,y_train為訓練資料對應的標籤,x_test為測試資料,y_test為測試資料對應的標籤,x_new是需要**的新資料)
from sklearn.ensemble import randomforestclassifier
forest = randomforestclassifier(n_estimators=100,random_state=0) #例項化並設定引數
forest.fit(x_train,y_train) #呼叫fit方法
pred_forest = forest.predict(x_new) #對新資料進行**
print("accuracy on training set:".format(forest.score(x_train,y_train))) #評估模型,訓練集上的分數
print("accuracy on test set:".format(forest.score(x_test,y_test))) #評估模型,測試集上的分數
Python機器學習基礎教程
本書是機器學習入門書,以python語言介紹。主要內容包括 機器學習的基本概念及其應用 實踐中最常用的機器學習演算法以及這些演算法的優缺點 在機器學習中待處理資料的呈現方式的重要性,以及應重點關注資料的哪些方面 模型評估和調參的高階方法,重點講解交叉驗證和網格搜尋 管道的概念 如何將前面各章的方法應...
《Python機器學習基礎教程》學習筆記 2
第2章 監督學習 利用graphviz開啟繪製的dot格式決策圖出錯,有兩個坑需注意 1 pip install graphviz庫還不夠,還要安裝graphviz軟體,位址 2 強烈建議安裝位址為c盤,安裝後新增軟體所在資料夾 bin 位址到path環境。之前安裝到其他盤,執行一直出錯,make ...
Python機器學習基礎教程學習筆記(一)
演算法 k近鄰法 型別 分類問題 獲取鳶尾花資料集 from sklearn.datasets import load iris iris load iris 列印資料集 print iris 資料集描述 print iris.descr 資料特徵 print iris data print iri...