kNN匹配之初學

2021-08-21 09:23:03 字數 521 閱讀 2649

knn演算法則是從訓練集中找到和新資料最接近的k條記錄,然後根據他們的主要分類來決定新資料的類別。該演算法涉及3個主要因素:訓練集、距離或相似的衡量、k的大小。

1、指導思想

knn演算法的指導思想是「近朱者赤,近墨者黑」,由你的鄰居來推斷出你的類別。

計算步驟如下:

1)算距離:給定測試物件,計算它與訓練集中的每個物件的距離

2)找鄰居:圈定距離最近的k個訓練物件,作為測試物件的近鄰

3)做分類:根據這k個近鄰歸屬的主要類別,來對測試物件分類

2、距離或相似度的衡量

什麼是合適的距離衡量?距離越近應該意味著這兩個點屬於乙個分類的可能性越大。

距離衡量包括歐式距離、夾角余弦等。

對於文字分類來說,使用余弦(cosine)來計算相似度就比歐式(euclidean)距離更合適。

3、類別的判定

投票決定:少數服從多數,近鄰中哪個類別的點最多就分為該類。

加權投票法:根據距離的遠近,對近鄰的投票進行加權,距離越近則權重越大(權重為距離平方的倒數)

Django之初學習

由於工作原因接觸第乙個web框架,故在這裡簡記!django 是乙個由 python 編寫的乙個開放源 的 web 應用框架。使用 django,只要很少的 python 的程式開發人員就可以輕鬆地完成乙個正式 所需要的大部分內容,並進一步開發出全功能的 web 服務 django 本身基於 mvc...

LINUX學習之初學GCC

本來昨天打算學會在ubuntu中使用gcc進行程式設計,可是直到今天才明白過來怎樣使用gcc進行程式設計。include int main printf hello,world n 我按照我能理解的一段話中所言,在終端中輸入gcc hello.c o hello,執行顯示 沒有那個檔案或目錄 這和昨...

Cesium初識之初學資料

cesium官方資料 cesium官網 官方部落格 行業案例 團隊成員介紹 一丟cesium中文學習 peter lu 部落格教程 超圖大牛,國內較早深入研究者 kamijawa 開源中國部落格 伐羅密 部落格教程 cesium中文網,含cesium程式設計入門和中級 cesium中文社群 2018...