機器學習之KNN演算法

2022-05-09 23:56:05 字數 796 閱讀 3591

如果乙個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。

knn是一種非常古老而且簡單的分類方法

a(a1,a2,a3),b(b1,b2,b3) 兩點的歐式距離是

因為計算的特徵值的平方,所以計算前需要先進行特徵處理

sklearn.neighbors.kneighborsclassifier(n_neighbors=5,algorithm='auto')

1、資料集的處理

2、分割資料集

3、對資料集進行標準化

4、estimator流程進行分類**

k值取多大?有什麼影響?

k值取很小:容易受異常點影響

k值取很大:容易受最近資料太多導致比例變化

懶惰演算法,對測試樣本分類時的計算量大,記憶體開銷大

必須指定k值,k值選擇不當則分類精度不能保證

交叉驗證:將拿到的資料,分為訓練和驗證集。以下圖為例:將資料分成5份,其中乙份作為驗證集。然後經過5次(組)的測試,每次都更換不同

的驗證集。即得到5組模型的結果,取平均值作為最終結果。又稱5折交叉驗證。

網格搜尋:通常情況下,有很多引數是需要手動指定的(如k-近鄰演算法中的k值),這種叫超引數。但是手動過程繁雜,所以需要對模型預設幾種超引數組

合。每組超引數都採用交叉驗證來進行評估。最後選出最優引數組合建立模型。

sklearn.model_selection.gridsearchcv(estimator, param_grid=none,cv=none)

機器學習之KNN演算法

在幾位志同道合的小夥伴的帶領下,開始了機器學習的路程,然而一切並不是想象的那麼簡單,因此本文記錄了自己的學習路程,希望還能堅持做好這件事。knn演算法是機器學習中屬於比較簡單的演算法,容易理解和閱讀。1.knn的應用 客戶流失 欺詐偵測等 更適合於稀有事件的分類問題 2.優缺點 優點 這是乙個簡單有...

機器學習演算法之KNN

物以類聚 人以群分,乙個例項與它周圍的例項屬於同一類的概率較大。給定乙個訓練資料集,對新輸入的例項,在訓練資料集中找到與該例項最鄰近的k個例項,這k個例項的多數屬於某個類,就把該輸入例項分為這個類。這裡,選用了歐氏距離,k的預設值為3,使用了sklearn提供的digits資料集來進行測試。inpu...

機器學習之kNN演算法

knn原理及實踐 1 演算法介紹 總的來說,機器學習入門的第乙個演算法是k 近鄰演算法 knn 它的工作原理是 存在乙個樣本資料集合,也稱作訓練樣本集,並且樣本集中每個資料都存在標籤,即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後,將新資料的每個特徵與樣本集中資料對應的特徵進...