本系列目的在於總結每乙個分類器的特點(優點、缺點、使用資料型別、使用時的注意事項等)。相關**自己搜。
python:建議使用2.7
python常用函式庫:numpy、scikit-learn等
python整合環境:anaconda
優點:1、對異常值不敏感
2、無資料輸入假設
缺點:1、計算複雜度高(對每乙個測試樣本要跑一邊knn,距離計算也很耗時)
2、空間複雜度高(儲存所有樣本)
3、隨k的變化結果可能受影響
4、無法給出資料的內在含義,僅靠距離作為唯一標準
使用資料型別:
1、連續型
2、離散型
使用時注意事項:
1、k一般不大於20
2、視情況對每個特徵進行歸一化
3、嘗試改變k調整模型精度
《機器學習實戰》第二章 k 近鄰演算法 筆記
在看這一章的書之前,在網上跟著博主jack cui的部落格學習過,非常推薦。python3 機器學習實戰 學習筆記 一 k 近鄰演算法 史詩級乾貨長文 講述的非常細緻,文字幽默有趣,演算法細節也講述的非常清楚,較書中而言還有sklearn調庫的補充內容。因此,在這裡,我只總結自己的筆記。2.k 近鄰...
第二章 K 近鄰演算法
步驟 1 收集資料 2 準備資料 3 分析資料 4 訓練資料 5 測試演算法 6 適用演算法 對未知類別屬性的資料集中的每個點一次執行以下操作 1 計算一直類別資料集中的點與當前點之間的距離 2 按照距離遞增次序排序 3 選取與當前點距離最小的k個點 4 確定前k個點所在類別出現的頻率 5 返回前k...
《機器學習實戰》 K 近鄰演算法
基本原理 通過計算新資料與給定的樣本資料之間的距離,來確定相似度排名 然後取前k個最相似的樣本,統計這k 一般不大於20 個樣本中出現最多的分類,設為新資料的分類。新資料,訓練樣本集,樣本資料標籤 即分類 最近鄰 前k個最相似資料 最近鄰標籤 演算法實施 首先提取要比較的特徵,確定各特徵的權重,進行...