資料探勘十大經典演算法之一 K近鄰

k近鄰（k-nearest neighbor，knn）是一種有監督學習方法，其工作機制很簡單：在給定測試樣本時，基於某種距離（歐氏距離）度量找出訓練樣本資料集中與其距離最近的k個樣本，然後基於這個k個樣本做**，通常採用的是「投票法」，也就是說屬於哪個類別的樣本數多，就**為該樣本。

歐氏距離：當p=2時，就是我們常見的歐式距離

曼哈頓距離：當p=1時稱之為曼哈頓距離

馬氏距離：馬氏距離標識的是資料的協方差距離，是一種有效的計算兩個未知樣本集的相似度的方法，在計算的過程中考慮到features之間的特徵，而且跟尺度無關（scale-invariant）。求馬氏距離的前提是要計算出樣本集的協方差矩陣，然後利用公式：

乙個包含3類且類別標籤為1，2，3的樣本集和待測試樣本item-1，計算item-1與樣本集中的沒想的距離，並取前k個距離最小的記錄，比如k=10，統計這五條集中出現最多的類別，並把該類別作為item-1的**類別。

item-1。

得到的k個最小的距離項分別為：a-1,b-2,c-3,d-2,e-1,f-3,g-1,h-1,i-2,j-1.其中數字表示類別，字母表示記錄的feature value。

統計k=10個項中個類別的個數，類別1–5個，類別2–3個，類別3–2個。

取上述結果最大的類別1作為item-1的**類別，所以item-1 的類別為1.

def
loadfile
(filename):
rawdata = 
file = open(filename,'rb')
reader = csv.reader(file)
for line in reader:
rawdata.pop(0)
rawdata = array(rawdata).astype(int32)
return rawdata
defknnclassifier
(unclassifieditem,traindata,trainlabels,k):
datasetsize = traindata.shape[0]
diffmat = tile(unclassifieditem, (datasetsize,1)) - traindata
sqdiffmat = (diffmat)**2
sqdistances = sqdiffmat.sum(axis=1)
distances = sqdistances**0.5
sorteddistindicies = distances.argsort()
classcount={}
for i in range(k):
voteilabel = trainlabels[sorteddistindicies[i]]
classcount[voteilabel] = classcount.get(voteilabel,0) + 1
sortedclasscount = sorted(classcount.iteritems(), key=operator.itemgetter(1), reverse=true)
return sortedclasscount[0][0]
defdigitclassify
(testdata,testdatalable,traindata,trainlable,k):
m = testdata.shape[0]
result = [['imageid','label']]
errorcount=0
for i in range(m):
classifyresult =knnclassifier(testdata[i],traindata,trainlable,k)
if(classifyresult !=testdatalable[i,1]):
errorcount+=1
return errorcount/float(m)

資料探勘十大經典演算法之一 K近鄰

資料探勘十大經典演算法

資料探勘十大經典演算法

十大經典資料探勘演算法

相關推薦