統計學習方法筆記第三章 K近鄰法

k近鄰法（knn）是一種基本的分類與回歸的方法，這裡只介紹其分類問題。

knn演算法的基本思想：對於乙個新的輸入資料點，在訓練集中找到與它距離最近的k個點，若這k個點中大部分屬於a類，則該資料點也屬於a類。

演算法流程：

特殊地，若k=1，則相當於離輸入例項最近的乙個樣本例項直接決定了它的類別。

knn模型的三要素：距離度量、k值選擇、分類決策規則。

距離度量：資料點之間的距離有很多度量標準，一般來說可概括為下式：

p=1稱為曼哈頓距離，p=2稱為歐氏距離，我們最常用的就是歐氏距離（如平面兩點間的距離公式）

k值選擇：k值若選得過小，則只有與輸入例項很近的訓練例項才會起到**作用，**結果對近鄰例項點會變得非常敏感，容易產生過擬合現象；若k值選得過大，則離輸入例項較遠的訓練例項也會對也測結果產生影響，會降低**的準確性。實際應用中，通常使用交叉驗證法來選取乙個適當的k值。

理由：

簡單來講，為了使誤分類率最小（即經驗風險最小），則需要找到近鄰中的最多類別，即經驗風險最小化等價於多數表決。

統計學習方法第三章 k近鄰法

k近鄰法是一種基本的分類與回歸方法，這裡只討論分類問題中的k近鄰法。演算法描述首先給定乙個訓練集，對於待分類的輸入資料，在訓練集中找到與該輸入資料最鄰近的k個樣本，這k個樣本中哪個類別最多，就把待分類資料分給這個類。k近鄰法沒有顯式的學習過程。k近鄰法的三個基本要素當這三個要素確定後，任何乙個新...

統計學習方法（第三章）k近鄰演算法

k近鄰演算法 knn是通過測量不同特徵值之間的距離進行分類。它的的思路是如果乙個樣本在特徵空間中的k個最相似即特徵空間中最鄰近的樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別。k通常是不大於20的整數。knn演算法中，所選擇的鄰居都是已經正確分類的物件。該方法在定類決策上只依據最鄰近的乙...

《統計學習方法》第三章 k近鄰演算法

給定乙個訓練集,對新的輸入例項,在訓練資料集彙總找到與該例項最鄰近的k個例項,這k個例項的多數屬於某個類,就把該輸入例項分為這個類.2.1 距離度量特徵空間中兩個例項點的距離是兩個例項點相似程度的反映.距離度量可以使用歐式距離,或更一般的lp距離 minkowski距離.2.2 k值的選擇在應用...

統計學習方法筆記 第三章 K近鄰法

統計學習方法 第三章 k近鄰法

統計學習方法（第三章）k近鄰演算法

《統計學習方法》第三章 k近鄰演算法

相關推薦

統計學習方法筆記第三章 K近鄰法

統計學習方法第三章 k近鄰法