機器學習 理論知識 實踐 KNN演算法

2021-09-29 22:13:59 字數 739 閱讀 4243

5knn引數說明

從訓練集合中獲取k個離待**樣本距離最近的樣本資料;

根據獲取得到的k個樣本資料來**當前待**樣本的目標屬性值。

在knn回歸應用中,一般採用平均值法或者加權平均值法。

kd樹採用從m個樣本的n維特徵中,分別計算n個特徵取值的方差,用方差最大 的第k維特徵n

kn_k

nk​作為根節點。對於這個特徵,選擇取值的中位數nkv

n_nk

v​作為樣本的劃 分點,對於小於該值的樣本劃分到左子樹,對於大於等於該值的樣本劃分到右子 樹,對左右子樹採用同樣的方式找方差最大的特徵作為根節點,遞迴即可產生 kd樹。

引數kneighborsclassifier ----- kneighborsregressor

weights

樣本權重,可選引數: uniform(等權重)、distance(權重和距離成反比,越近影響越強);預設為uniform

n_neighbors

鄰近數目,預設為5

algorithm

計算方式,預設為auto,可選引數: auto、ball_tree、kd_tree、brute;推薦選擇kd_tree

leaf_size

在使用kd_tree的時候,葉子數量,預設為30

metric

樣本之間距離度量公式,預設為minkowski(閔可夫斯基);當引數p為2的時候,其實就是歐幾里得距離

p給定minkowski距離中的p值,預設為2

機器學習 理論知識

一 混淆矩陣 confusion matrix 混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式來表示。具體評價指標有總體精度 製圖精度 使用者精度等,這些精度指標從不同的側面反映了影象分類的精度。在人工智慧中,混淆矩陣 confusion matrix 是視覺化工具,特別用...

機器學習高階理論知識列表

個人學習收藏,侵刪 知識列表選自貪心科技的 機器學習高階訓練營 第5期的宣傳廣告,課程內容相比往期有大幅更新,一方面新增了對前沿主題的講解如圖神經網路 gcn,gat等 另外一方面對核心部分 如凸優化 強化學習 加大了對理論層面上的深度。除此之外,也會包含科研方 元學習 解釋性 fair learn...

機器學習理論 GMM模型

李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...