在這裡我們將學習到k-近鄰法的基本原理,如何使用測量距離的方法來分類;我們會學習如何玻璃鋼python從文字檔案匯入並理解資料;再次,還要避免在存在許多資料倆元時,要避免計算計算距離時遇到的一些常見錯誤;利用k-近鄰演算法改進約會**和數字手寫識別系統。
一、演算法概述
通過測量不同特徵值之間的距離的方法來進行分類。
優點:精度足夠高(這點是極好的)、對異常值不敏感(什麼是異常值)、無資料輸入假定(這兒也不是太清楚)
缺點:計算複雜程度高、空間複雜度高。
對於適用的資料型別:數值型和標稱型(什麼是標稱型)
標稱型:標稱型目標變數的結果只在有限目標集中取值,如真與假(標稱型目標變數主要用於分類)標稱型:標稱型目標變數的結果只在有限目標集中取值,如真與
假(標稱型目標變數主要用於分類)
數值型:數值型目標變數則可以從無限的數值集合中取值,如0.100,42.001等 (數值型目標變數主要用於回歸分析)
什麼是回歸分析啊?兩種或者兩種以上變數間相互依賴的定量關係的一種統計方法。
首先存在乙個資料集合,訓練樣本集而且存在標籤。我們輸入沒有標籤的新資料後,將新資料的每個特徵與樣本集中資料對應的特徵進行較,演算法提取樣本中特徵最相似資料(最近鄰)的分類標籤。選擇樣本集中前k個最相似的資料,這就是k-近鄰法中k的出處,通常k是不大於20的整數。最後,選擇k個最相似資料中出現的次數最多的分類,作為新資料的分類。(沒怎麼看懂)
k近鄰演算法的一般流程
(1)收集資料:可以使用任何方法。
(2)準備資料:距離計算說需要的數值,最好是結構化的資料格式。
(3)分析資料:可以使用任何方法。
(4)訓練演算法:吃演算法不適用於k-近鄰演算法。
(5)測試演算法:計算錯誤率。
(6)使用演算法:首先需要輸入樣本資料和結構化的輸出結果,然後執行knn判定輸入資料分別輸入屬於哪個分類,最後應用計算出的分類執行後續的處理。
k近鄰法 kNN分類
模型原型 sklearn.neighbors.kneighborsclassifier n neighbors 5,weights uniform algorithm auto leaf size 30,p 2,metric minkowski metric params none,n jobs 1...
k近鄰法 電影分類
import math movie data 測試樣本 唐人街探案 23,3,17,片 下面為求與資料集中所有資料的距離 x 23,3,17 knn for key,v in movie data.items d math.sqrt x 0 v 0 2 x 1 v 1 2 x 2 v 2 2 輸出所...
學習筆記 k近鄰法
對新的輸入例項,在訓練資料集中找到與該例項最鄰近的 k 個例項,這 k 個例項的多數屬於某個類,就把該輸入例項分給這個類。k 近鄰法 k nearest neighbor,k nn 是一種基本分類與回歸方法,這裡只討論分類問題中的 k nn。三要素 輸入 訓練資料集 t 這裡的 y i 是例項的類別...