knn分類回歸方法:分類任務「投票法」,回歸任務「平均法」。
懶惰學習的代表:在訓練階段僅僅是把樣本儲存起來,訓練時間開銷為0,待收到測試樣本再進行處理。
模型: 利用訓練資料集對特徵向量空間進行劃分,並作為分類的「模型」。
策略:多數表決規則(等價於經驗風險最小化)。
多數表決規則:如果分類的損失函式為0-1損失函式
對給定的樣本
x x
,其最近鄰的
k' role="presentation">k
k個訓練例項點構成的集合nk
(x) nk(
x)
。對應的類別為cj
c j。
那麼誤分類率為 1k
∑xi∈
nk(x
)i(y
i≠cj
)=1−
1k∑x
i∈nk
(x)i
(yi=
cj) 1k∑
xi∈n
k(x)
i(yi
≠cj)
=1−1
k∑xi
∈nk(
x)i(
yi=c
j)
誤分類率最小即經驗風險最小,即∑x
i∈nk
(x)i
(yi=
cj) ∑xi
∈nk(
x)i(
yi=c
j)
最大。小的k值,相當於用較小的訓練例項進行**,「學習」的近似誤差會減小,
只有與輸入例項較近的訓練例項才會對**結果起作用。
但是缺點是「學習」估計誤差會增大,**結果會對近鄰的例項點非常敏感
k小模型複雜,易發生過擬合。
k大模型變得簡單,極端情況,k=n,無論輸入例項是什麼,都將簡單地**它屬於在訓練例項中最多的類。
第三章 k近鄰法
缺點 適用資料範圍 工作原理 一般流程 k近鄰模型 歐式距離 曼哈頓距離 l 距離 k值的選擇 k偏大 分類決策規則 k近鄰法的實現 kd樹 import math x,y 預設歐式距離 defl x,y,p 2 iflen x len y and len x 1 sum 0for i in ran...
統計學習方法(第三章)k近鄰演算法
k近鄰演算法 knn是通過測量不同特徵值之間的距離進行分類。它的的思路是 如果乙個樣本在特徵空間中的k個最相似 即特徵空間中最鄰近 的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。k通常是不大於20的整數。knn演算法中,所選擇的鄰居都是已經正確分類的物件。該方法在定類決策上只依據最鄰近的乙...
統計學習方法 第三章 k近鄰法
k近鄰法是一種基本的分類與回歸方法,這裡只討論分類問題中的k近鄰法。演算法描述 首先給定乙個訓練集,對於待分類的輸入資料,在訓練集中找到與該輸入資料最鄰近的k個樣本,這k個樣本中哪個類別最多,就把待分類資料分給這個類。k近鄰法沒有顯式的學習過程。k近鄰法的三個基本要素 當這三個要素確定後,任何乙個新...