kNN k近鄰演算法

一、knn演算法的思想

knn演算法作為機器學習演算法中非常有效比較容易掌握的演算法，其基本思想是採用測量不同特徵值之間的距離的方法進行分類。knn屬於監督學習演算法，它的工作原理是：存在乙個樣本資料集，訓練樣本集，並且樣本集中的每個資料都存在標籤，即我們知道樣本集中每乙個資料與所屬分類的對應關係。輸入沒有標籤的新資料之後，將新資料的每個特徵與樣本集中資料對應特徵進行比較，然後演算法提取樣本集中特徵最相似的資料的分類標籤。一般來說是只選取資料中前k個最相似的資料，所以稱之為k近鄰演算法。

二、knn演算法的實現過程

1、收集資料：可以使用任何方法

2、準備資料：距離計算所需要的數值，最好是結構化的資料格式。

3、分析資料：可以使用任何方法。

4、訓練資料：此步驟不適用於k-近鄰演算法。

5、測試演算法：計算錯誤率。

6、使用演算法：首先需要輸入樣本資料和結構化的出結果，然後執行knn演算法判定輸入資料分別屬於哪個分類

knn演算法的偽**：

1、計算已知類別資料集中的點與當前點之間的距離

2、按距離遞增次序排序

3、選取與當前距離最小的k個點

4、確定前k個點所在類別的出現頻率

python**實現如下：

def classify(inputpoint,dataset,labels,k):

datasetsize = dataset.shape[0]

#已知分類的資料集（訓練集）的行數

#先tile函式將輸入點拓展成與訓練集相同維數的矩陣，再計算歐氏距離

diffmat = tile(inputpoint,(datasetsize,1))-dataset #樣本與訓練集的差值矩陣

sqdiffmat = diffmat ** 2 #差值矩陣平方

sqdistances = sqdiffmat.sum(axis=1) #計算每一行上元素的和

distances = sqdistances ** 0.5 #開方得到尤拉距離矩陣

sorteddistindicies = distances.argsort() #按distances中元素進行公升序排序後得到的對應下標的列表

#選擇距離最小的k個點

classcount = {}

for i in range(k):

voteilabel = labels[ sorteddistindicies[i] ]

classcount[voteilabel] = classcount.get(voteilabel,0)+1

#按classcount字典的第2個元素（即類別出現的次數）從大到小排序

sortedclasscount = sorted(classcount.items(), key = operator.itemgetter(1), reverse = true)

return sortedclasscount[0][0]

三、knn演算法的優缺點

優點：精度高、對異常值不敏感、無資料輸入假定

缺點：計算複雜度高、空間複雜度高

適用資料範圍：數值型和標稱型

四、knn演算法的應用

五、knn演算法的改進演算法

kNN k近鄰演算法

KNN k近鄰演算法

kNN（k近鄰演算法）

KNN k 近鄰演算法

kNN k近鄰演算法

KNN k近鄰演算法

kNN（k近鄰演算法）

KNN k 近鄰演算法

相關推薦