目標:
k-最近鄰(k-nearest neighbor,knn)演算法有3個基本要素:距離度量,k值的選擇和分類決策規則。
k近鄰的思想很簡單,即在乙個資料集上,給定乙個新樣本,找到與新樣本距離最近的k個例項,在這些例項中屬於多數的類即為這個新樣本的類。
改進的方法主要從三個要素處理:
1、降低計算複雜度,提高演算法的執行效率:
通過高效的索引方法,大大降低尋找k個最近鄰的計算開銷。有的演算法雖然能夠有效降低k個最近鄰的計算開銷。
2、優化相似度度量方法
(1) 當屬性具有不同的尺度或相關時如何處理:做法:把每個屬性的值規範化:最小-最大規範化。(2)當物件包含不同型別的屬性(混合資料):袁方,楊有龍.針對混合型分類資料改進的k-modes演算法距離公式[j/ol].計算機工程與應用:1-11[2019-10-08]. .近鄰法(3)屬性具有不同的權重,如何處理?度量相似度的距離方法中特徵賦予不同權重來解決這一問題,即特徵的權重一般根據各個特徵在分類中的作用設定。可根據特徵在整個訓練樣本庫中的分類作用獲得權重,也可根據其在訓練樣本的區域性樣本(靠近待測試樣本的樣本集合)中的分類作用獲得權重。即對每個屬性的貢獻加權來修改鄰近度公式。
3、k值的選擇
k值的選擇很大程度上根據經驗來選取,比如用交叉驗證法、貝葉斯法等方法來確定k的取值。李瀟瀟. 貝葉斯核近鄰分類方法研究[d].
4、分類決策規則:
1、多數表決規則。
2、排序融合規則 與knn結合
高兵,劉美娜,謝彪,王玉鵬,孫琳,張秋菊.基於排序融合模型的紫癜性腎炎患者中差異表達變數的篩選研究[j].中國衛生統計,2018,35(05):663-665.
楊藝,韓德強,韓崇昭.基於排序融合的特徵選擇[j].控制與決策,2011,26(03):397-401.
**實現:
使用sklearn實現knn
機器學習 k 近鄰演算法
一.k 近鄰演算法概述 簡單地說,k 近鄰演算法採用測量不同特徵值之間的距離方法進行分類。k 近鄰演算法 knn 它的工作原理是 存在乙個樣本資料集,也稱訓練樣本集,並且樣本集中每個資料都存在標籤,即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後,將資料的每個特徵與樣本集合中資...
機器學習 K近鄰演算法
用例一 from sklearn.neighbors import nearestneighbors import numpy as np x np.array 1,1 2,1 3,2 1,1 2,1 3,2 nbrs nearestneighbors n neighbors 2,algorithm...
機器學習 K近鄰演算法
工作原理 存在乙個訓練樣本資料集合,每組資料對應乙個標籤及分類 比如下邊例子為前兩個資料都為a類 輸入測試樣本後通過計算求出測試樣本與訓練樣本的歐氏距離d,取前k個最小的值,這k組資料對應的標籤分類最多的那種,就是測試樣本的標籤。訓練樣本資料 1.0,1.1 1.0,1.0 0,0 0,0.1 歐氏...