《Python機器學習基礎教程》估計器介面小結

2021-09-12 06:23:08 字數 1220 閱讀 5526

《python機器學習基礎教程》筆記

scikit-learn中的所有演算法(預處理、監督學習、無監督學習等)都被實現為類。這些類在scikit-learn中叫作估計器,關於估計器的用法,以上做個小結:

①首先需要將特定類的物件例項化。

②在構建模型物件時,應該設定模型的所有引數。

③所有估計器都有fit方法,fit方法要求第乙個引數總是資料x,用乙個numpy陣列或scipy稀疏矩陣表示,監督演算法還需要有乙個y引數,它是一維numpy陣列,包含回歸或分類的目標值(標籤)。

④要想建立乙個新輸出形式的**,可以用predict方法,要想建立輸入資料x的一種新表示,可以用transform方法。

⑤所有監督模型都有score(x_test,y_test)方法,可以評估模型。

以下列出部分**具體說明一下用法:

1.以無監督學習中的pca為例

(x為不帶標籤的資料矩陣)

from sklearn.decomposition import pca

pca = pca(n_components=2) #例項化並設定引數

pca.fit(x) #呼叫fit方法

x_pca = pca.transform(x) #建立輸入資料x的一種新表示

2.以監督學習中的隨機森林為例

(x_train為訓練資料,y_train為訓練資料對應的標籤,x_test為測試資料,y_test為測試資料對應的標籤,x_new是需要**的新資料)

from sklearn.ensemble import randomforestclassifier

forest = randomforestclassifier(n_estimators=100,random_state=0) #例項化並設定引數

forest.fit(x_train,y_train) #呼叫fit方法

pred_forest = forest.predict(x_new) #對新資料進行**

print("accuracy on training set:".format(forest.score(x_train,y_train))) #評估模型,訓練集上的分數

print("accuracy on test set:".format(forest.score(x_test,y_test))) #評估模型,測試集上的分數

Python機器學習基礎教程

本書是機器學習入門書,以python語言介紹。主要內容包括 機器學習的基本概念及其應用 實踐中最常用的機器學習演算法以及這些演算法的優缺點 在機器學習中待處理資料的呈現方式的重要性,以及應重點關注資料的哪些方面 模型評估和調參的高階方法,重點講解交叉驗證和網格搜尋 管道的概念 如何將前面各章的方法應...

《Python機器學習基礎教程》學習筆記 2

第2章 監督學習 利用graphviz開啟繪製的dot格式決策圖出錯,有兩個坑需注意 1 pip install graphviz庫還不夠,還要安裝graphviz軟體,位址 2 強烈建議安裝位址為c盤,安裝後新增軟體所在資料夾 bin 位址到path環境。之前安裝到其他盤,執行一直出錯,make ...

Python機器學習基礎教程學習筆記(一)

演算法 k近鄰法 型別 分類問題 獲取鳶尾花資料集 from sklearn.datasets import load iris iris load iris 列印資料集 print iris 資料集描述 print iris.descr 資料特徵 print iris data print iri...