俗話說,實踐才能出真理,能動手就不要逼逼,下面將利用鶯尾花資料集實戰knn演算法。
首先,要介紹一下這個實戰的整體思路:要做什麼、怎麼做!第一步,我們應該拿到資料集,了解資料集資訊:資料集內包含 3 類共 150 條記錄,每類各 50 個資料,每條記錄都有 4 項特徵:花萼長度、花萼寬度、花瓣長度、花瓣寬度(鶯尾花資料集已經瘋子在sklearn庫中,可直接呼叫);第二步,將資料集劃分為訓練集測試集:一般劃分比例為8:2或7:3;第三步構造knn演算法模型調參並訓練(可直接在sklearn呼叫);最後一步就是模型評估了(一般使用準確率)。
from sklearn.neighbors import kneighborsclassifier #匯入模型
from sklearn.datasets import load_iris #匯入資料集
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score #匯入準確率評價類
iris = load_iris(
)#建立鶯尾花資料類物件
x = iris.data #資料特徵
y = iris.target #資料標籤
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=
0.2, random_state=
666)
#劃分資料集
knn = kneighborsclassifier(n_neighbors=3)
#建立knn模型類物件,k值設為3
knn.fit(x_train, y_train)
#模型訓練
y_pred = knn.predict(x_test)
#**測試集
print
("acc_test:"
, accuracy_score(y_test, y_pred)
)#列印測試集的準確率
最後發現我們測試集的準確率達到了1,還是非常非常不錯的,大家也可以改一下k值試一下哦!! 機器學習系列(五) 邏輯回歸(鶯尾花資料集)
載入資料 import numpy as np import pandas as pd data pd.read csv iris.csv 去掉不需要的id列 data.drop id axis 1,inplace true 刪除重覆記錄 data.drop duplicates inplace t...
kNN處理鳶尾花資料集
knn k nearest neighbor 演算法是機器學習中最基礎入門,也是最常用的演算法之一,可以解決大多數分類與回歸問題。這裡以鳶尾花資料集為例,討論分類問題中的 knn 的思想。鳶尾花資料集內包含 3 類共 150 條記錄,每類各 50 個資料,每條記錄都有 4 項特徵 花萼長度 sepa...
鶯尾花資料集 貝葉斯分類 day5
step1 庫函式匯入 import warnings warnings.filterwarnings ignore 忽略了警告錯誤的輸出 import numpy as np 載入鶯尾花資料集 from sklearn import datasets print sklearn.version 匯...