機器學習實戰使用K 近鄰演算法識別手寫數字

每張都是32畫素x32畫素

def img2vector(filename):
"""將32x32的影象轉化為1x1024的向量
:param filename:
:return:
"""return_vect = zeros((1, 1024))
fr = open(filename)
for i in range(32):              # 用for line in readlines()也可以
line_str = fr.readline()      # 一行一行的讀
for j in range(32):
return_vect[0, 32*i+j] = int(line_str[j])
fr.close()
return return_vect

有了上面的函式，就可以設計迴圈，把訓練集，測試集，標籤都準備成knn演算法輸入的標準格式了

這裡標籤的提取需要從檔名稱中提取，比如檔名稱為『0_23.txt』，則表示這個影象的正確分類為數字『0』

**如下：

from knn import classify0
from numpy import *
from os import listdir
# 手寫數字識別系統測試**
def handwriting_class():
hw_labels = 
training_file_list = listdir('trainingdigits')    # 獲取目錄下的檔名
m = len(training_file_list)
training_mat = zeros((m, 1024))
for i in range(m):
file_name_str = training_file_list[i]
file_str = file_name_str.split('.')[0]
class_num = int(file_str.split('_')[0])
training_mat[i, :] = img2vector(r'trainingdigits/%s' % file_name_str)
test_file_list = listdir('testdigits')
error_count = 0.0
m_test = len(test_file_list)
for i in range(m_test):
file_name_str = test_file_list[i]
file_str = file_name_str.split('.')[0]
class_num = int(file_str.split('_')[0])
vector_under_test = img2vector(r'testdigits/%s' % file_name_str)
classifier_result = classify0(vector_under_test, training_mat, hw_labels, 3)
print 'the classifier came back with: %d, the real answer is: %d' % (classifier_result, class_num)
if classifier_result != class_num:
error_count += 1.0
print '\nthe total number of errors is : %d' % error_count
print '\nthe total error rate is : %f' % (error_count/float(m_test))
handwriting_class()