這次使用的訓練集由sklearn
模組提供,關於虹膜(一種鳶尾屬植物)的資料。
資料儲存在.data
成員中,它是乙個 (n_samples, n_features)numpy
陣列:
print(iris.data)
# [[ 5.1 3.5 1.4 0.2]
# [ 4.9 3. 1.4 0.2]
# ...
它有四個特徵,萼片長度,萼片寬度,花瓣長度,花瓣寬度 (sepal length, sepal width, petal length and petal width)。
它的品種分類有山鳶尾,變色鳶尾,菖蒲錦葵(iris setosa, iris versicolor, iris virginica.)三種。
print iris.data.shape
# output:(150l, 4l)
這是乙個含有 150 個資料的訓練集。
from sklearn import neighbors
knn = neighbors.kneighborsclassifier(n_neighbors=5)
n_neighbors
引數級是指定獲取 k 個鄰近點。
訓練的函式一般就是fit
:
knn.fit(iris.data, iris.target)
模擬一些測試資料,使用剛剛的模型進行**:
predict = knn.predict([[0.1, 0.2, 0.3, 0.4]])
print(predict) # output: [0]
分類演算法之鄰近演算法 KNN(理論篇)
今天介紹另一種分類演算法,k鄰近演算法 k nearest neighbors 即 knn 演算法。cover 和 hart 在 1968 年提出了最初的鄰近演算法,用於解決分類 classification 的問題。關於這個演算法在維基百科中也有介紹 knn是一種基於例項學習 instance b...
KNN演算法 鄰近演算法
knn演算法是機器學習裡面比較簡單的乙個分類演算法了,整體思想比較簡單 計算乙個點a與其他所有點之間的距離,取出與該點最近的k個點,然後統計這k個點裡面所屬分模擬例最大的,則點a屬於該分類。這樣講可能還有點迷糊,下面用乙個例子來說明一下 電影名稱 打鬥次數 接吻次數 電影型別 california ...
KNN演算法(鄰近演算法)
鄰近演算法 或者說k最近鄰 knn,k nearestneighbor 分類演算法是 資料探勘分類技術中最簡單的方法之一。所謂k最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。knn演算法的核心思想 是如果乙個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某乙個類...