5knn引數說明
從訓練集合中獲取k個離待**樣本距離最近的樣本資料;
根據獲取得到的k個樣本資料來**當前待**樣本的目標屬性值。
在knn回歸應用中,一般採用平均值法或者加權平均值法。
kd樹採用從m個樣本的n維特徵中,分別計算n個特徵取值的方差,用方差最大 的第k維特徵n
kn_k
nk作為根節點。對於這個特徵,選擇取值的中位數nkv
n_nk
v作為樣本的劃 分點,對於小於該值的樣本劃分到左子樹,對於大於等於該值的樣本劃分到右子 樹,對左右子樹採用同樣的方式找方差最大的特徵作為根節點,遞迴即可產生 kd樹。
引數kneighborsclassifier ----- kneighborsregressor
weights
樣本權重,可選引數: uniform(等權重)、distance(權重和距離成反比,越近影響越強);預設為uniform
n_neighbors
鄰近數目,預設為5
algorithm
計算方式,預設為auto,可選引數: auto、ball_tree、kd_tree、brute;推薦選擇kd_tree
leaf_size
在使用kd_tree的時候,葉子數量,預設為30
metric
樣本之間距離度量公式,預設為minkowski(閔可夫斯基);當引數p為2的時候,其實就是歐幾里得距離
p給定minkowski距離中的p值,預設為2
機器學習 理論知識
一 混淆矩陣 confusion matrix 混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式來表示。具體評價指標有總體精度 製圖精度 使用者精度等,這些精度指標從不同的側面反映了影象分類的精度。在人工智慧中,混淆矩陣 confusion matrix 是視覺化工具,特別用...
機器學習高階理論知識列表
個人學習收藏,侵刪 知識列表選自貪心科技的 機器學習高階訓練營 第5期的宣傳廣告,課程內容相比往期有大幅更新,一方面新增了對前沿主題的講解如圖神經網路 gcn,gat等 另外一方面對核心部分 如凸優化 強化學習 加大了對理論層面上的深度。除此之外,也會包含科研方 元學習 解釋性 fair learn...
機器學習理論 GMM模型
李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...