第三章 k 近鄰

knn分類回歸方法：分類任務「投票法」，回歸任務「平均法」。

懶惰學習的代表：在訓練階段僅僅是把樣本儲存起來，訓練時間開銷為0，待收到測試樣本再進行處理。

模型：利用訓練資料集對特徵向量空間進行劃分，並作為分類的「模型」。

策略：多數表決規則（等價於經驗風險最小化）。

多數表決規則：如果分類的損失函式為0-1損失函式

對給定的樣本

x x

,其最近鄰的

k' role="presentation">k

k個訓練例項點構成的集合nk

(x) nk(

。對應的類別為cj

c j。

那麼誤分類率為 1k

∑xi∈

nk(x

)i(y

i≠cj

)=1−

1k∑x

i∈nk

(x)i

(yi=

cj) 1k∑

xi∈n

k(x)

i(yi

≠cj)

=1−1

k∑xi

∈nk(

x)i(

yi=c

誤分類率最小即經驗風險最小，即∑x

i∈nk

(x)i

(yi=

cj) ∑xi

∈nk(

x)i(

yi=c

最大。小的k值，相當於用較小的訓練例項進行**，「學習」的近似誤差會減小，

只有與輸入例項較近的訓練例項才會對**結果起作用。

但是缺點是「學習」估計誤差會增大，**結果會對近鄰的例項點非常敏感

k小模型複雜，易發生過擬合。

k大模型變得簡單，極端情況，k=n，無論輸入例項是什麼，都將簡單地**它屬於在訓練例項中最多的類。

第三章 k近鄰法

缺點適用資料範圍工作原理一般流程 k近鄰模型歐式距離曼哈頓距離 l 距離 k值的選擇 k偏大分類決策規則 k近鄰法的實現 kd樹 import math x,y 預設歐式距離 defl x,y,p 2 iflen x len y and len x 1 sum 0for i in ran...

統計學習方法（第三章）k近鄰演算法

k近鄰演算法 knn是通過測量不同特徵值之間的距離進行分類。它的的思路是如果乙個樣本在特徵空間中的k個最相似即特徵空間中最鄰近的樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別。k通常是不大於20的整數。knn演算法中，所選擇的鄰居都是已經正確分類的物件。該方法在定類決策上只依據最鄰近的乙...

統計學習方法第三章 k近鄰法

k近鄰法是一種基本的分類與回歸方法，這裡只討論分類問題中的k近鄰法。演算法描述首先給定乙個訓練集，對於待分類的輸入資料，在訓練集中找到與該輸入資料最鄰近的k個樣本，這k個樣本中哪個類別最多，就把待分類資料分給這個類。k近鄰法沒有顯式的學習過程。k近鄰法的三個基本要素當這三個要素確定後，任何乙個新...

第三章 k 近鄰

第三章 k近鄰法

統計學習方法（第三章）k近鄰演算法

統計學習方法 第三章 k近鄰法

相關推薦

統計學習方法第三章 k近鄰法