機器學習演算法（1） KNN

k-nearest neighbor algorithm

右圖中，綠色圓要被決定賦予哪個類，是紅色三角形還是藍色四方形？如果k=3，由於紅色三角形所佔比例為2/3，綠色圓將被賦予紅色三角形那個類，如果k=5，由於藍色四方形比例為3/5，因此綠色圓被賦予藍色四方形類。

k最近鄰(k-nearest neighbor，knn)分類演算法，是乙個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果乙個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別。knn演算法中，所選擇的鄰居都是已經正確分類的物件。該方法在定類決策上只依據最鄰近的乙個或者幾個樣本的類別來決定待分樣本所屬的類別。 knn方法雖然從原理上也依賴於極限定理，但在類別決策時，只與極少量的相鄰樣本有關。由於knn方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對於類域的交叉或重疊較多的待分樣本集來說，knn方法較其他方法更為適合。

knn演算法不僅可以用於分類，還可以用於回歸。通過找出乙個樣本的k個最近鄰居，將這些鄰居的屬性的平均值賦給該樣本，就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對該樣本產生的影響給予不同的權值(weight)，如權值與距離成正比。

該演算法在分類時有個主要的不足是，當樣本不平衡時，如乙個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入乙個新樣本時，該樣本的k個鄰居中大容量類的樣本占多數。因此可以採用權值的方法（和該樣本距離小的鄰居權值大）來改進。該方法的另乙個不足之處是計算量較大，因為對每乙個待分類的文字都要計算它到全體已知樣本的距離，才能求得它的k個最近鄰點。目前常用的解決方法是事先對已知樣本點進行剪輯，事先去除對分類作用不大的樣本。該演算法比較適用於樣本容量比較大的類域的自動分類，而那些樣本容量較小的類域採用這種演算法比較容易產生誤分。

extend:

機器學習演算法（1） KNN

機器學習經典演算法1 knn

1 KNN 學習筆記

機器學習1 KNN文字分類

機器學習演算法（1） KNN

機器學習經典演算法1 knn

1 KNN 學習筆記

機器學習1 KNN文字分類

相關推薦