資料探勘note4 KNN

2021-10-03 16:05:28 字數 717 閱讀 8919

找出點x的k個鄰居:

計算兩點之間的距離

歐幾里得距離 euclidean distance

漢明距離 hamming distance

漢明距離就是不匹配的位置差

曼哈頓距離 l1 distance

不同維度差值的絕對值相加

如何確定label

k的選擇

範圍縮放

如果不同的屬性值範圍不一樣 比如身高屬性150-180,而收入範圍是10k-1m,那麼需要將他們縮放到相同的範圍。目的是防止距離度量值受範圍跨度大的屬性的控制。

如何提高knn 有效性

1、knn是一種消極學習(lazy learner)法。因為並沒有明確建立模型

2、分類未知資料還是比較昂貴的

3、可以產生任意形狀的決策邊界

4、由於決策基於本地資訊,易於處理變數互動

5、選擇乙個合適的k是很重要的

6、多餘或多餘的屬性可能會造成問題

7、對於丟失的屬性很難處理

資料探勘演算法 KNN學習

knn k nearest neighbour 是資料探勘領域的基本演算法之一,原理比較簡單,在各類別均衡 樣本容量比較大的情況下比較實用。演算法以樣本間的距離作為相似性測度。在同一測量空間中以測試樣本為中心,檢測一定範圍內的k個樣本類別,用 投票法 得出測試樣本的類別。設k為離測試樣本最近的樣本數...

資料探勘 分類演算法 KNN

knn k nearest neighbors k近鄰分類演算法 knn演算法從訓練集中找到和新資料最接近的k條記錄,然後根據他們的主要分類來決定新資料的類別。knn分類演算法是資料探勘分類技術中最簡單的方法之一。所謂k最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表...

資料探勘演算法筆記 knn演算法

前幾篇的總結居然格式錯誤,找時間重新整理。一調包import numpy as npfrom sklearn.neighbors import kneighborsclassifierknn kneighborsclassifier data np.array 3,104 2,100 1,81 10...