K近鄰演算法 KNN

knn（k-nearest neighbor）演算法的核心思想是如果乙個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的乙個或者幾個樣本的類別來決定待分樣本所屬的類別。所以比較特殊的是它不需要訓練，易於理解，易於實現。

在knn中，通過計算物件間距離來作為各個物件之間的相似性指標，在這裡距離一般使用歐氏距離或曼哈頓距離：

整個knn演算法過程可以描述為：輸入測試資料，將測試資料的特徵與訓練集中對應的特徵進行相互比較，找到訓練集中與之最為相似的前k個資料，則該測試資料對應的類別就是k個資料中出現次數最多的那個分類，其演算法的描述為：

計算測試資料與各個訓練資料之間的距離；按照距離的遞增關係進行排序；選取距離最小的k個點；確定前k個點所在類別的出現頻率；返回前k個點中出現頻率最高的類別作為測試資料的**分類。

從knn演算法思想上思考，該演算法在分類時有個主要的不足是，當樣本不平衡時，如乙個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入乙個新樣本時，該樣本的k個鄰居中大容量類的樣本占多數。該演算法只計算"最近的"鄰居樣本，某一類的樣本數量很大，那麼或者這類樣本並不接近目標樣本，或者這類樣本很靠近目標樣本。無論怎樣，數量並不能影響執行結果。但是本實驗有個缺陷是有個別類別的文字很少。所以有這樣乙個缺點。另乙個不足之處是計算量較大，因為對每乙個待分類的文字都要計算它到全體已知樣本的距離，才能求得它的k個最近鄰點。

K近鄰演算法 KNN

K 近鄰演算法 KNN

k近鄰演算法 kNN

K近鄰演算法 KNN

K近鄰演算法 KNN

K 近鄰演算法 KNN

k近鄰演算法 kNN

K近鄰演算法 KNN

相關推薦