knn
是通過測量不同特徵值之間的距離進行分類。它的思路是:如果乙個樣本在特徵空間中的
k個最相似
(即特徵空間中最鄰近
)的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別,其中
k通常是不大於
20的整數。
knn演算法中,所選擇的鄰居都是已經正確分類的物件。該方法在定類決策上只依據最鄰近的乙個或者幾個樣本的類別來決定待分樣本所屬的類別。
在訓練集中資料和標籤已知的情況下,輸入測試資料,將測試資料的特徵與訓練集中對應的特徵進行相互比較,找到訓練集中與之最為相似的前
k個資料,則該測試資料對應的類別就是
k個資料中出現次數最多的那個分類,其演算法的描述為: 1
)計算測試資料與各個訓練資料之間的距離; 2
)按照距離的遞增關係進行排序; 3
)選取距離最小的
k個點; 4
)確定前
k個點所在類別的出現頻率; 5
)返回前
k個點中出現頻率最高的類別作為測試資料的**分類。
優點:精度高,對異常資料不敏感(你的類別是由鄰居中的大多數決定的,乙個異常鄰居並不能影響太大),無資料輸入假定; 缺點
:計算雜度高(需要計算新的資料點與樣本集中每個資料的「距離」,以判斷是否是前
k個鄰居),空間複雜度高(巨大的矩陣); 適用
資料範圍:數值型(目標變數可以從無限的數值集合中取值)和標稱型(目標變數只有在有限目標集中取值)。
資料探勘十大經典演算法之KNN
k nearest neighbor algorithm 右圖中,綠色圓要被決定賦予哪個類,是紅色三角形還是藍色四方形?如果k 3,由於紅色三角形所佔比例為2 3,綠色圓將被賦予紅色三角形那個類,如果k 5,由於藍色四方形比例為3 5,因此綠色圓被賦予藍色四方形類。k最近鄰 k nearest ne...
資料探勘十大經典演算法 8 kNN
1 k最近鄰 k nearest neighbor,knn 分類演算法,是乙個理論上比較成熟的方法,也是最簡單的機器學習演算法之一。該方法的思路是 如果乙個樣本在特徵空間中的k個最相似 即特徵空 間中最鄰近 的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。2 knn演算法中,所選擇的鄰居都是...
資料探勘十大經典演算法
最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...