k-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。存在乙個樣本資料集合,也稱作訓練樣本集,並且樣本集中每個資料都存在標籤,即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後,將新資料的每個特徵和樣本集中資料對應的特徵進行比較,然後演算法提取樣本集中特徵最相似資料(最近鄰)的分類標籤。一般來說,我們只選擇樣本資料集中前k個最相似的資料,這就是k-近鄰演算法中k的出處,通常k是不大於20的整數。最後,選擇k個最相似資料中出現次數最多的分類,作為新資料的分類。
電影名稱
打鬥鏡頭
接吻鏡頭
電影型別(tag)
california man
3104
愛情片he is not really into dudes
2100
愛情片kevin longblade
10110
動作片
輸入一部電影a的資訊,我們不知道這部電影是愛情片還是動作片,那麼我們可以通過打鬥鏡頭和接吻鏡頭兩個特徵,算出電影a與已知電影型別資訊(樣本集)的距離,取出前k(不大於20)個距離最近的電影樣本,看看k個樣本中型別最多的,即是電影a的型別。
距離的演算法可以根據權重等,將特徵標註在座標中,比如打鬥鏡頭是y座標,接吻鏡頭是x座標,即可算出距離。
將手寫資料轉換成32*32畫素。0~9每個數有200個帶標籤的樣本,通過將手寫數的32*32畫素與2000個樣本比較,得出向量距離,取前k個,可以得出手寫數字的值。略
《機器學習實戰》學習筆記一 k 近鄰演算法(kNN)
k 近鄰演算法 以下簡稱knn 是分類演算法中比較簡單的一種,knn演算法的一般流程為 1 收集資料,如從檔案中匯入資料 2 準備資料,將資料轉化為適合計算的格式,如矩陣的形式 3 分析資料 4 測試資料,計算分類的錯誤率 5 應用演算法,給定輸入,得到相應的輸出,指出改資料屬於哪一種分類。knn演...
機器學習實戰(一) K 近鄰演算法
簡單來說,k 近鄰演算法採用測量不同特徵值之間的距離方法進行分類 優點 精度高 對異常值不敏感 無資料輸入假定 缺點 計算複雜度高 空間複雜度高 適用資料範圍 數值型和標稱型 工作原理 存在乙個樣本資料集合,樣本集中每個資料都存在標籤,即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新...
機器學習實戰 一 k 近鄰演算法
本章介紹機器學習實戰的第乙個演算法 k近鄰演算法 k nearest neighbor 也稱為knn。說到機器學習,一般都認為是很複雜,很高深的內容,但實際上其學習門欄並不算高,具備基本的高等數學知識 包括線性代數,概率論 就可以了,甚至一些演算法高中生就能夠理解了。knn演算法就是乙個原理很好理解...