機器學習 KNN演算法原理 Spark實現

不懂演算法的資料開發者不是乙個好的演算法工程師，還記得研究生時候，導師講過的一些資料探勘演算法，頗有興趣，但是無奈工作後接觸少了，資料工程師的鄙視鏈，模型》實時》脫機數倉》etl工程師》bi工程師（不喜勿噴哈），現在做的工作主要是脫機數倉，當然前期也做過一些etl的工作，為了職業的長遠發展，拓寬自己的技術邊界，有必要逐步深入實時和模型，所以從本篇文章開始，也是列個flag，深入學習實時和模型部分。

改變自己，從提公升自己不擅長領域的事情開始。

首先，knn是一種分類演算法，有監督的機器學習，將訓練集的類別打標籤，當測試物件和訓練物件完全匹配時候，就可以對其進行分類，但是測試物件與訓練物件的多個類，如何匹配呢，前面可以判別是否測試物件術語某個訓練物件，但是如果是多個訓練物件類，那如何解決這種問題呢，所以就有了knn，knn是通過測量不同特徵值之間的距離進行分類。它的思路是：如果乙個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別，其中k通常是不大於20的整數。knn演算法中，所選擇的鄰居都是已經正確分類的物件。該方法在定類決策上只依據最鄰近的乙個或者幾個樣本的類別來決定待分樣本所屬的類別

2.1 準備資料，對資料進行預處理。

2.2 計算測試樣本點（也就是待分類點）到其他每個樣本點的距離。

2.3 對每個距離進行排序，然後選擇出距離最小的k個點。

2.4 對k個點所屬的類別進行比較，根據少數服從多數的原則，將測試樣本點歸入在k個點中佔比最高的那一

優點：易於理解，實現起了很方便，無需預估引數，無需訓練

鳶尾花資料集，資料集包含3類共150調資料，每類含50個資料，每條記錄含4個特徵：花萼長度、花萼寬度、花瓣長度、花瓣寬度

過這4個特徵**鳶尾花卉屬於（iris-setosa, iris-versicolour, iris-virginica）中的哪一品種

package com.hoult.work
import org.apache.spark.rdd.rdd
import org.apache.spark.
object knndemo  else 
})//3.過濾出樣本資料和測試資料
val sampledata=data.filter(_.label!=" ")
val testdata=data.filter(_.label==" ").map(_.point).collect()
//4.求每一條測試資料與樣本資料的距離
testdata.foreach(elem=>,$")
println()
})sc.stop()
}  case class labelpoint(label:string,point:array[double])
import scala.math._
def getdistance(x:array[double],y:array[double]):double=
}

機器學習 KNN演算法原理 Spark實現

機器學習 KNN演算法原理

機器學習 KNN演算法原理 Spark實現

機器學習 演算法 KNN

相關推薦

機器學習演算法 KNN