k近鄰法(knn)是一種基本的分類與回歸的方法,這裡只介紹其分類問題。
knn演算法的基本思想:對於乙個新的輸入資料點,在訓練集中找到與它距離最近的k個點,若這k個點中大部分屬於a類,則該資料點也屬於a類。
演算法流程:
特殊地,若k=1,則相當於離輸入例項最近的乙個樣本例項直接決定了它的類別。
knn模型的三要素:距離度量、k值選擇、分類決策規則。
距離度量:資料點之間的距離有很多度量標準,一般來說可概括為下式:
p=1稱為曼哈頓距離,p=2稱為歐氏距離,我們最常用的就是歐氏距離(如平面兩點間的距離公式)
k值選擇:k值若選得過小,則只有與輸入例項很近的訓練例項才會起到**作用,**結果對近鄰例項點會變得非常敏感,容易產生過擬合現象;若k值選得過大,則離輸入例項較遠的訓練例項也會對也測結果產生影響,會降低**的準確性。實際應用中,通常使用交叉驗證法來選取乙個適當的k值。
理由:
簡單來講,為了使誤分類率最小(即經驗風險最小),則需要找到近鄰中的最多類別,即經驗風險最小化等價於多數表決。
統計學習方法 第三章 k近鄰法
k近鄰法是一種基本的分類與回歸方法,這裡只討論分類問題中的k近鄰法。演算法描述 首先給定乙個訓練集,對於待分類的輸入資料,在訓練集中找到與該輸入資料最鄰近的k個樣本,這k個樣本中哪個類別最多,就把待分類資料分給這個類。k近鄰法沒有顯式的學習過程。k近鄰法的三個基本要素 當這三個要素確定後,任何乙個新...
統計學習方法(第三章)k近鄰演算法
k近鄰演算法 knn是通過測量不同特徵值之間的距離進行分類。它的的思路是 如果乙個樣本在特徵空間中的k個最相似 即特徵空間中最鄰近 的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。k通常是不大於20的整數。knn演算法中,所選擇的鄰居都是已經正確分類的物件。該方法在定類決策上只依據最鄰近的乙...
《統計學習方法》第三章 k近鄰演算法
給定乙個訓練集,對新的輸入例項,在訓練資料集彙總找到與該例項最鄰近的k個例項,這k個例項的多數屬於某個類,就把該輸入例項分為這個類.2.1 距離度量 特徵空間中兩個例項點的距離是兩個例項點相似程度的反映.距離度量可以使用歐式距離,或更一般的lp距離 minkowski距離.2.2 k值的選擇 在應用...