一:當我們訓練出乙個模型,我們不知道這個模型是好還是壞,我們如果應用到真實環境,結果**的沒有可信度,所以在輸入樣例之前先對模型進行測試。這時,我們就要將我們所有的資料分為兩部分,一大部分用來訓練,一小部分用來測試,一般比例在8:2。也就是我們會有兩套資料集,乙個是訓練集,另乙個是測試集。
二:鳶尾花舉例說明
#測試機器學習演算法的好壞import numpy as np
from sklearn import datasets
from sklearn.neighbors import kneighborsclassifier
iris = datasets.load_iris()#讀取資料
x = iris.data #獲取特徵資料
y = iris.target#獲取樣本標記
shuffle_indexs = np.random.permutation(len(x)) #將索引打亂順序,因為這裡面的標記都是排好序的,不打亂順序,不能將所有的標記載入到訓練集中
test_radio = 0.2
test_size = int(test_radio*len(x))
#獲取訓練的下標和測試的下標
train_indexs = shuffle_indexs[test_size:]
test_indexs = shuffle_indexs[:test_size]
#獲取訓練集的資料和測試集的資料
x_train = x[train_indexs]
y_train = y[train_indexs]
x_test = x[test_indexs]
y_test = y[test_indexs]
#knn演算法執行
knn = kneighborsclassifier(n_neighbors=5)
knn.fit(x_train,y_train)
y_predict = knn.predict(x_test) #**結果
rate = sum(y_predict==y_test)/len(y_test) #求比例
print(rate)#準確率
課堂測試 機器學習原理
1 用自己的話說明機器學習的四大分類 classification 分類 clustering 聚類 regression 回歸 dimensionality reduction 降維 classification 分類 分類需要先找到資料樣本點中的分界線,再根據分界線對新資料進行分類,分類資料是離...
如何測試機器的大小端
一 大小端 1 為啥會有大小端 在計算機系統中以位元組為單位,每個位址單位都有乙個位元組 乙個位元組8個bit位 在c語言中,有char 8bit short 16bit long 32bit,具體看編譯器 對於位數大於8的處理器,不如16位或者32位的處理器,由於暫存器寬度大於乙個位元組,那麼必然...
回歸 好壞 機器學習 python機器學習線性回歸
線性回歸是最簡單的機器學習模型,其形式簡單,易於實現,同時也是很多機器學習模型的基礎。對於乙個給定的訓練集資料,線性回歸的目的就是找到乙個與這些資料最吻合的線性函式。一般情況下,線性回歸假設模型為下,其中w為模型引數 線性回歸模型通常使用mse 均方誤差 作為損失函式,假設有m個樣本,均方損失函式為...