kNN 手寫數字識別

2021-08-14 23:30:36 字數 2101 閱讀 6844

識別手寫的數字0-9,影象為32畫素

× 32畫素的黑白影象

1.將影象轉換為向量

將32×

32的二進位制影象矩陣轉換為1

× 1024的向量。

#將影象轉化為向量

defimgvector

(filename):

returnvect = zeros((1,1024))

fr = open(filename)

#讀取檔案的前32行

for i in range(32):

linestr = fr.readline()

#儲存每行的前32個字元值

for j in range(32):

returnvect[0,32*i+j] = int(linestr[j])

return returnvect

讀入檔案輸出結果[0,32:63]部分:

2.使用knn演算法識別手寫數字

(1) 匯入包os.listdir

os.listdir(path)

(2)分別讀取訓練資料集和測試資料集,使用分類器分類

#識別手寫測試

defhandwirtingclasstest

(): hwlables =

#讀取訓練資料集

trainingfilelist = listdir('trainingdigits')

m = len(trainingfilelist)

#構造初始的1*1024的全0向量

trainingmat = zeros((m,1024))

for i in range(m):

#從檔名中解析數字

filenamestr = trainingfilelist[i]

filestr = filenamestr.split('.')[0]

classnumstr = int(filestr.split('_')[0])

#存入類標籤

#分類器的dataset

trainingmat[i,:] = imgvector('trainingdigits/%s'%filenamestr)

#測試資料集

testfilelist = listdir('testdigits')

errorcount = 0.0

mtest = len(testfilelist)

for i in range(mtest):

filenamestr = testfilelist[i]

filestr = filenamestr.split('.')[0]

classnumstr = int(filestr.split('_')[0])

vectorundertest = imgvector('testdigits/%s'%filenamestr)

#使用分類器分類

classifierresult = classify(vectorundertest,trainingmat,hwlables,3)

print

"the classifier came back with%d,the real answer is : %d"%(classifierresult,classnumstr)

if (classifierresult != classnumstr):

errorcount += 1.0

print

"the total error rate is :%f:" % (errorcount / float(mtest))

輸出結果:

錯誤率為1.16%。

3. knn的優缺點:

優點:

缺點:

KNN手寫數字識別

以歐幾里得距離度量樣本間的相似程度。對於乙個測試樣本首先計算該樣本與每個訓練樣本間的距離,然後按距離值對訓練樣本進行公升序排序,排序後前k個樣本進行投票,即哪個標籤出現的次數多,就將測試樣例劃為該類。程式使用資料 預先將資料處理為,標籤資訊轉化為txt文件。from numpy import imp...

KNN手寫數字識別

import numpy as np import matplotlib pyplot as plt from sklearn.neighbors import kneighborsclassifier 讀取樣本資料,目標 0,1,2,3,4,5,6,7,8,9 feature target for...

手寫數字識別 實戰 KNN演算法識別手寫數字

鄰近演算法,或者說k最近鄰 knn,k nearestneighbor 分類演算法是資料探勘分類技術中最簡單的方法之一。所謂k最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。下面是我學習knn演算法的思維導圖 其中距離的定義,各個距離的公式為 歐氏距離 n維空間的距...