k近鄰法基本介紹:
給定乙個訓練資料集,對新的輸入例項,在訓練資料集中找到與該例項最鄰近的k個例項,這k個例項的多數屬於某個類,就把該輸入例項分為這個類。
分布描述為:
(1)根據給定的距離度量,在訓練集t中找出與例項x最近的k個點,涵蓋這k個點的x的領域記為nk(x)
(2)在nk(x)中,根據分類決策規則,如多數表決,決定x的類別
(3)k近鄰演算法的特殊情況是k=1的情況,稱為最近鄰演算法,對於輸入的例項點,最近鄰演算法將訓練資料集中與x最近點的類作為x的類。
knn的三大基本要素:
(1)距離度量
可選擇歐式距離、曼哈頓距離等。
(2)k值的選擇
k值的減小就意味著整體模型變得複雜,容易發生過擬合;
k值的增大就意味著整體模型變得簡單,發生欠擬合。
(3)分類決策
knn的分類決策規則往往是多數表決,即由輸入例項的k個鄰近的訓練例項中的多數類決定輸入例項的類。
統計學習方法讀書筆記 (三)k近鄰法
個人感覺k近鄰應該是所有統計學習方法裡最好理解的了,通俗來說就是在資料集中找距離測試資料x最近的k個資料樣本,如果a類的數量大於b類的數量,則將測試資料x歸為a類,書中也僅用了不到10頁來論述這個理論,除基本k近鄰理論,還有kd樹的闡述。分類決策規則 一般採用多數表決規則。假設每個資料樣本對應x 1...
統計學習方法讀書筆記(三) k近鄰法
全部筆記的彙總貼 統計學習方法讀書筆記彙總貼 給定乙個訓練資料集,對新的輸入例項,在訓練資料集中找到與該例項最鄰近的k kk個例項,這k kk個例項的多數屬於某個類,就把該輸入例項分為這個類。k kk近鄰法沒有顯式的學習過程。k近鄰法的特殊情況是k 1 k 1k 1的情形,稱為最近鄰演算法。對於輸入...
統計學習方法筆記 K近鄰法
看完了knn演算法,感覺演算法挺簡單的,選擇k的大小,距離計算公式,分類決策三個部分就行了,並且三個部分用的東西都挺常見,沒什麼難度。後面的提到了乙個改進演算法,搜尋空間kd演算法,這樣可以幫助我們很快的找到k個最近鄰,運用中位數縮小搜尋空間,省去了對大部分資料點的搜尋。思想不難 k近鄰法是一種基本...