from sklearn import datasets
iris = datasets.load_iris() // iris是乙個字典集
keys:>>>iris.keys()
dict_keys(['data', 'target', 'target_names', 'descr', 'feature_names'])
data:>>>iris.data.shape
(150, 4)
feature_names:>>> iris.feature_names
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
target:>>> iris.target_names
array(['setosa', 'versicolor', 'virginica'], dtype=')
x = iris.data[:,:2] //全部行,前2列 x = iris.data[: , 2:] //全部行,後2列
plt.scatter[x[:,0],x[:,1]] //第0列和第1列分別作為x,y
y = iris.target
plt.scatter(x[y0,0],x[y0,1],color = 「red」 ,marker = 「o」) //對於y0的行取出第0列作x軸 , y0的行取出第1列作為y軸
plt.scatter(x[y1,0],x[y1,1],color = 「blue」,marker = 「+」)
plt.scatter(x[y2,0],x[y2,1],color = 「green」,marker = 「x . , v ^ < > 123
48 s p _」)
train_test_split:test_ratio = 0.2
test_size = int(len(x)*test_ratio)
test_indexes = shuffle_indexes[:test_size] //前20%為測試集
train_indexes = shuffle_indexes[test_size:]//後80%為訓練集
x_train = x[train_indexes]
y_train = y[train_indexes]
x_test = x[test_indexes]
y_test = y[test_indexes]
檢驗模型:檢視y_predict和y_test相同的比例
sum(y_predict == y_test)/len(y_test)
from sklearn.model_selection import train_test_split
x_train , x_test , y_train , y_test = train_test_split(x , y , test_size = 0.2 , random_state = 666)
鳶尾花 Iris 資料集
2.pandas庫基礎操作 3.資料視覺化 tf.keras.utils.get file fname,origin,cache dir 引數 說明fname origin 檔案的url位址 cache dir train url train path tf.keras.utils.get file...
邏輯回歸 鳶尾花資料集
import numpy as np import pandas as pd data pd.read csv iris.csv 去掉不需要的列 data.drop id axis 1,inplace true data.drop duplicates inplace true 實現對映操作 dat...
kNN處理鳶尾花資料集
knn k nearest neighbor 演算法是機器學習中最基礎入門,也是最常用的演算法之一,可以解決大多數分類與回歸問題。這裡以鳶尾花資料集為例,討論分類問題中的 knn 的思想。鳶尾花資料集內包含 3 類共 150 條記錄,每類各 50 個資料,每條記錄都有 4 項特徵 花萼長度 sepa...