機器學習中的 K 近鄰 演算法

2021-09-11 02:14:29 字數 492 閱讀 9029

k-近鄰(k-nearest neighbor, 簡稱knn)演算法是一種常用的監督學習方法,其工作機制:給定測試樣本,基於某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然後基於這k個「鄰居」的資訊進行**

距離度量是什麼呢?

拿歐氏距離來說, 假如給定兩個樣本a, b:

那麼最終的歐式距離就是

根號下(a1特徵值 - b1特徵值)^2 + (a1特徵值 - b1特徵值)^2 + …

當然資料越累似, 特徵值的差(a1-b1)就越小…

算出與每個樣本的歐式距離之後, k-近鄰演算法會根據與每個樣本的歐式距離由小到大排序, 取出前k個樣本, 大多數樣本屬於乙個類別, 則這個樣本也屬於該類別

優點: 簡單, 快!無需訓練,沒有學習的過程

缺點: k值取很大:受到樣本均衡的問題;k值取很小:容易受到異常點的影響

機器學習 k 近鄰演算法

一.k 近鄰演算法概述 簡單地說,k 近鄰演算法採用測量不同特徵值之間的距離方法進行分類。k 近鄰演算法 knn 它的工作原理是 存在乙個樣本資料集,也稱訓練樣本集,並且樣本集中每個資料都存在標籤,即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後,將資料的每個特徵與樣本集合中資...

機器學習 K近鄰演算法

用例一 from sklearn.neighbors import nearestneighbors import numpy as np x np.array 1,1 2,1 3,2 1,1 2,1 3,2 nbrs nearestneighbors n neighbors 2,algorithm...

機器學習 K近鄰演算法

工作原理 存在乙個訓練樣本資料集合,每組資料對應乙個標籤及分類 比如下邊例子為前兩個資料都為a類 輸入測試樣本後通過計算求出測試樣本與訓練樣本的歐氏距離d,取前k個最小的值,這k組資料對應的標籤分類最多的那種,就是測試樣本的標籤。訓練樣本資料 1.0,1.1 1.0,1.0 0,0 0,0.1 歐氏...