k近鄰(knn)是一種基本的分類與回歸方法。
k近鄰輸入的例項為特徵向量,輸出為例項的類別。可以取很多類。
k近鄰實際上利用訓練資料集對特徵向量空間進行劃分,並作為其分類的「模型」。
k值的選擇 距離度量 分類決策規則 是k近鄰的三要素。
k近鄰演算法簡單、直觀:給定乙個資料集,對於新輸入的例項,在訓練資料集中找到與該例項最近鄰的k個例項,這k個例項的多數屬於某個類,就把該輸入例項分為這個類。
特徵空間中兩個例項點的距離是兩個例項點相似程度的 反映。
k值的選擇:
如果選擇較小的k值,那麼相當於用較小的鄰域中的訓練例項進行**,這樣學習的近似誤差會減小,但是模型會變複雜,容易發生過擬合。如果周圍恰巧是雜訊,那就容易**錯誤。
如果選擇較大的k值,那麼相當於用較大的鄰域中的訓練例項進行**,這樣學習的近似誤差增大,但是模型會變簡單,離**點比較遠的點也會對**起作用,(相關度不大),使**發生錯誤。
在應用中,k值一般選取乙個比較小的數字,通常採用交叉驗證法來選取最優的k值。
分類決策規則:
分類決策為多數表決 。
多數表決等價於經驗風險最小化。
kd樹的構建和搜尋統計學習方法寫的很清楚,再次就不敘述。
統計學習方法(李航)學習筆記(三)k近鄰法
說點沒用的 前段時間一直在忙畢業 的事情,時間比較緊湊,這幾天閒下來了,blog還是要撿起來加油寫的,加油吧,為不要成為中年失業者而奮鬥!1 k近鄰的輸入為例項的特徵向量,對應特徵空間中的點,輸出為例項的類別 可以取多類 2 k近鄰演算法的通過周圍的多個點,通過多數表決的方法進行 因此k近鄰演算法不...
統計學習方法概論 《統計學習方法》李航著
統計學習由 監督學習,非監督學習,半監督學習和強化學習組成。監督學習方法主要包括 分類 標註 與 回歸問題 回歸問題 輸入變數 和 輸出變數 均為連續變數的 問題 分類問題 輸出變數為有限個離散變數的 問題 標註問題 輸入與輸出變數均為變數序列的 問題 統計學習三要素 模型,策略,演算法 損失函式度...
(李航統計學習方法)提公升方法
本文主要包括adaboost和提公升樹,後期會擴充套件到xgboost和lightgbm。boosting通過改變樣本訓練權重,學習多個弱分類器,最後進行線性組合,提高分類效能。兩個著重點 如何改變資料的樣本權重或概率分布 如何將弱分類器整合成強分類器 初始化樣本資料權重,假設樣本權重均勻分布,得到...