第三章 k 近鄰

2021-08-16 20:17:55 字數 971 閱讀 7076

knn分類回歸方法:分類任務「投票法」,回歸任務「平均法」。

懶惰學習的代表:在訓練階段僅僅是把樣本儲存起來,訓練時間開銷為0,待收到測試樣本再進行處理。

模型: 利用訓練資料集對特徵向量空間進行劃分,並作為分類的「模型」。

策略:多數表決規則(等價於經驗風險最小化)。

多數表決規則:如果分類的損失函式為0-1損失函式

對給定的樣本

x x

,其最近鄰的

k' role="presentation">k

k個訓練例項點構成的集合nk

(x) nk(

x)

。對應的類別為cj

c j。

那麼誤分類率為 1k

∑xi∈

nk(x

)i(y

i≠cj

)=1−

1k∑x

i∈nk

(x)i

(yi=

cj) 1k∑

xi∈n

k(x)

i(yi

≠cj)

=1−1

k∑xi

∈nk(

x)i(

yi=c

j)

誤分類率最小即經驗風險最小,即∑x

i∈nk

(x)i

(yi=

cj) ∑xi

∈nk(

x)i(

yi=c

j)

最大。小的k值,相當於用較小的訓練例項進行**,「學習」的近似誤差會減小,

只有與輸入例項較近的訓練例項才會對**結果起作用。

但是缺點是「學習」估計誤差會增大,**結果會對近鄰的例項點非常敏感

k小模型複雜,易發生過擬合。

k大模型變得簡單,極端情況,k=n,無論輸入例項是什麼,都將簡單地**它屬於在訓練例項中最多的類。

第三章 k近鄰法

缺點 適用資料範圍 工作原理 一般流程 k近鄰模型 歐式距離 曼哈頓距離 l 距離 k值的選擇 k偏大 分類決策規則 k近鄰法的實現 kd樹 import math x,y 預設歐式距離 defl x,y,p 2 iflen x len y and len x 1 sum 0for i in ran...

統計學習方法(第三章)k近鄰演算法

k近鄰演算法 knn是通過測量不同特徵值之間的距離進行分類。它的的思路是 如果乙個樣本在特徵空間中的k個最相似 即特徵空間中最鄰近 的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。k通常是不大於20的整數。knn演算法中,所選擇的鄰居都是已經正確分類的物件。該方法在定類決策上只依據最鄰近的乙...

統計學習方法 第三章 k近鄰法

k近鄰法是一種基本的分類與回歸方法,這裡只討論分類問題中的k近鄰法。演算法描述 首先給定乙個訓練集,對於待分類的輸入資料,在訓練集中找到與該輸入資料最鄰近的k個樣本,這k個樣本中哪個類別最多,就把待分類資料分給這個類。k近鄰法沒有顯式的學習過程。k近鄰法的三個基本要素 當這三個要素確定後,任何乙個新...