K近鄰演算法 KNN

k近鄰演算法-knn

何謂k近鄰演算法，即k-nearest neighbor algorithm，簡稱knn演算法，單從名字來猜想，可以簡單粗暴的認為是：k個最近的鄰居，當k=1時，演算法便成了最近鄰演算法，即尋找最近的那個鄰居。為何要找鄰居？打個比方來說，假設你來到乙個陌生的村莊，現在你要找到與你有著相似特徵的人群融入他們，所謂入夥。

用官方的話來說，所謂k近鄰演算法，即是給定乙個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的k個例項（也就是上面所說的k個鄰居），這k個例項的多數屬於某個類，就把該輸入例項分類到這個類中。根據這個說法，咱們來看下引自維基百科上的一幅圖：

如上圖所示，有兩類不同的樣本資料，分別用藍色的小正方形和紅色的小三角形表示，而圖正中間的那個綠色的圓所標示的資料則是待分類的資料。也就是說，現在，我們不知道中間那個綠色的資料是從屬於哪一類（藍色小正方形or紅色小三角形），下面，我們就要解決這個問題：給這個綠色的圓分類。

如果k=3，綠色圓點的最近的3個鄰居是2個紅色小三角形和1個藍色小正方形，少數從屬於多數，基於統計的方法，判定綠色的這個待分類點屬於紅色的三角形一類。

如果k=5，綠色圓點的最近的5個鄰居是2個紅色三角形和3個藍色的正方形，還是少數從屬於多數，基於統計的方法，判定綠色的這個待分類點屬於藍色的正方形一類。

於此我們看到，當無法判定當前待分類點是從屬於已知分類中的哪一類時，我們可以依據統計學的理論看它所處的位置特徵，衡量它周圍鄰居的權重，而把它歸為(或分配)到權重更大的那一類。這就是k近鄰演算法的核心思想。

k值的選擇

1. 如果選擇較小的k值，就相當於用較小的領域中的訓練例項進行**，「學習」近似誤差會減小，只有與輸入例項較近或相似的訓練例項才會對**結果起作用，與此同時帶來的問題是「學習」的估計誤差會增大，換句話說，k值的減小就意味著整體模型變得複雜，容易發生過擬合；

2. 如果選擇較大的k值，就相當於用較大領域中的訓練例項進行**，其優點是可以減少學習的估計誤差，但缺點是學習的近似誤差會增大。這時候，與輸入例項較遠（不相似的）訓練例項也會對**器作用，使**發生錯誤，且k值的增大就意味著整體的模型變得簡單。

3. k=n，則完全不足取，因為此時無論輸入例項是什麼，都只是簡單的**它屬於在訓練例項中最多的累，模型過於簡單，忽略了訓練例項中大量有用資訊。

在實際應用中，k值一般取乙個比較小的數值，例如採用交叉驗證法（簡單來說，就是一部分樣本做訓練集，一部分做測試集）來選擇最優的k值。

K近鄰演算法 KNN

K 近鄰演算法 KNN

k近鄰演算法 kNN

K 近鄰（KNN）演算法

K近鄰演算法 KNN

K 近鄰演算法 KNN

k近鄰演算法 kNN

K 近鄰（KNN）演算法

相關推薦