機器學習之KNN演算法

在幾位志同道合的小夥伴的帶領下，開始了機器學習的路程，然而一切並不是想象的那麼簡單，因此本文記錄了自己的學習路程，希望還能堅持做好這件事。

knn演算法是機器學習中屬於比較簡單的演算法，容易理解和閱讀。

1.knn的應用

客戶流失**、欺詐偵測等（更適合於稀有事件的分類問題）

2.優缺點

- 優點：這是乙個簡單有效的演算法，易於理解，易於實現；

- 缺點：必須儲存全部資料集，如果訓練集過大，消耗大量的儲存空間，對每個資料計算距離值，實際使用很耗時。

3.距離計算方式

-歐式距離

-夾角余弦（適合文字分析）

-曼哈頓距離

-切比雪夫距離

4.演算法實現

對未知類別屬性的資料集中的每個點依次執行以下操作：

(1)計算已知類別資料集中的點與當前點之間的距離；

(2)按照距離遞增次序排序；

(3)選取與當前點距離最小的走個點；

(4)確定前灸個點所在類別的出現頻率；

(5)返回前女個點出現頻率最高的類別作為當前點的**分類。

乙個簡單的例子，用python語言實現knn演算法，資料與後面將要寫的其他演算法使用一樣的資料。

訓練資料

tid house marriage income borrower 1 yes single 125 k no 2 no married 100 k no 3 no single 70 k no 4 yes married 120 k no 5 no divorced 95 k yes 6 no married 60 k no 7 yes divorced 220 k no 8 no single 85 k yes 9 no married 75 k no 10 no single 90

k yes

測試資料

tid house marriage income test no married 120

k

準備資料

def
loaddataset_train
(path_read):
df = pd.read_csv(path_read, sep='\t', header=0, dtype=str, na_filter=false)
group = np.array(np.matrix(df[['house','marriage','income']]))
label = np.array(np.matrix(df["borrower"]))
y = np.zeros(group.shape)
y[group=='yes']=1
y[group=='married']=1
y[group=='divorced']=2
for i in group[:,2]:
y[group==i]=i[0:-1]
#print(i[0:-1])
labels=['no', 'no', 'no', 'no', 'yes', 'no', 'no', 'yes', 'no', 'yes']
return y,labels
defloaddataset_test
(path):
df = pd.read_csv(path, sep='\t', header=0, dtype=str, na_filter=false)
group = np.array(np.matrix(df[['house','marriage','income']]))
return group

資料分類，參考機器學習**

def
classify
(inx,dataset,label,k):
datasetsize = dataset.shape[0]
diffmat = np.tile(inx, (datasetsize,1)) - dataset
sqdiffmat = diffmat ** 2
sqdistance = sqdiffmat.sum(axis=1)
distance = sqdistance ** 0.5
sorteddistindicies = distance.argsort()
classcount={}
for i in range(k):
voteilabel = label[sorteddistindicies[i]]
classcount[voteilabel] = classcount.get(voteilabel,0) + 1
sortedclasscount = sorted(classcount.iteritems(), key=operator.itemgetter(1), reverse=true)
return sortedclasscount[0][0]

選取不同的k值發現對結果的影響還是很大的，訓練資料畢竟很少。這只是方便理解演算法，簡單的實現，後面還會繼續學習機器學習其他的演算法，**嘗試著自己寫一寫，之前沒使用過python語言，也對機器學習了解甚少，只在研究生階段開始學習，**以及其他地方不及之處，希望大家多多交流。

機器學習之KNN演算法

機器學習演算法之KNN

機器學習之kNN演算法

機器學習之KNN演算法

機器學習之KNN演算法

機器學習演算法之KNN

機器學習之kNN演算法

機器學習之KNN演算法

相關推薦