KNN演算法簡介

2021-09-08 09:40:09 字數 680 閱讀 2938

假設乙個樣本空間裡的樣本分成幾個型別[1],然後給定乙個待分類的資料,通過計算距離該資料最近的k個樣本來判斷這個待分類資料屬於哪個分類。簡單的說,就是由那些裡自己最近的k個樣本點投票決定待分類資料歸為哪一類。

下圖中有兩種型別的樣本資料,一類是藍色的正方形,另一類是紅色的三角形,中間那個綠色的圓形是待分類資料;

1knn演算法示例

如果k=3,那麼離綠色點最近的有2個紅色的三角形和1個藍色的正方形,這三個點進行投票,於是綠色的待分類點就屬於紅色的三角形。

如果k=5,那麼離綠色點最近的有2個紅色的三角形和3個藍色的正方形,這五個點進行投票,於是綠色的待分類點就屬於藍色的正方形。

knn演算法的步驟可以描述為[2]:

1、計算出樣本資料和待分類資料的距離;

2、為待分類資料選擇k個與其距離最小的樣本;

3、統計出k個樣本中大多數樣本所屬的分類;

4、這個分類就是待分類資料所屬的分類。

k應該設定為乙個奇數,這樣可以保證投票的時候不會有平票。

[1] 《k nearest neighbor 演算法》

[2] 《資料探勘之分類 (knn演算法的描述及使用)》

KNN演算法簡介

knn k nearest neighbor 是乙個簡單而經典的機器學習分類演算法,通過度量 待分類資料 和 類別已知的樣本 的距離 通常是歐氏距離 對樣本進行分類。這話說得有些繞口,且來分解一番 1 分類問題都是監督 supervised 問題,也就是說一定數量的樣本類別是已知的。2 既然我們已經...

文字分類演算法之 KNN演算法的簡介

1 knn演算法的簡介 knn演算法就是找到k個最相似的樣本,這些樣本所在的類,就是當前文件的所屬的類。如下圖 綠色圓圈表示你想分類的文字,其他是已知類別的樣本。圖中其他形狀和綠色圓圈的距離代表了相似度。如果k 3,就是取3個最相似的文字,那麼1個藍色框,2紅色三角被選中,因為紅色三角多,則綠色圓圈...

KNN演算法 鄰近演算法

knn演算法是機器學習裡面比較簡單的乙個分類演算法了,整體思想比較簡單 計算乙個點a與其他所有點之間的距離,取出與該點最近的k個點,然後統計這k個點裡面所屬分模擬例最大的,則點a屬於該分類。這樣講可能還有點迷糊,下面用乙個例子來說明一下 電影名稱 打鬥次數 接吻次數 電影型別 california ...