KNN中的k如何選擇?

2021-09-03 08:24:11 字數 698 閱讀 8194

答:knn中的k值選取對k近鄰演算法的結果會產生重大影響。如李航博士的一書「統計學習方法」上所說:如果選擇較小的k值,就相當於用較小的領域中的訓練例項進行**,「學習」近似誤差會減小,只有與輸入例項較近或相似的訓練例項才會對**結果起作用,與此同時帶來的問題是「學習」的估計誤差會增大,換句話說,k值的減小就意味著整體模型變得複雜,容易發生過擬合;

如果選擇較大的k值,就相當於用較大領域中的訓練例項進行**,其優點是可以減少學習的估計誤差,但缺點是學習的近似誤差會增大。這時候,與輸入例項較遠(不相似的)訓練例項也會對**器作用,使**發生錯誤,且k值的增大就意味著整體的模型變得簡單。

k=n,則完全不足取,因為此時無論輸入例項是什麼,都只是簡單的**它屬於在訓練例項中最多的累,模型過於簡單,忽略了訓練例項中大量有用資訊。

在實際應用中,k值一般取乙個比較小的數值,例如採用交叉驗證法(簡單來說,就是一部分樣本做訓練集,一部分做測試集)來選擇最優的k值。

.近似誤差和估計誤差的關係?

答:近似誤差:可以理解為對現有訓練集的訓練誤差。 估計誤差:可以理解為對測試集的測試誤差。

近似誤差其實可以理解為模型估計值與實際值之間的差距。 估計誤差其實可以理解為模型的估計係數與實際係數之間的差距。

近似誤差,更關注於「訓練」。估計誤差,更關注於「測試」、「泛化」。

最小化近似誤差容易過擬合

最小化估計誤差整體的泛化能力好。

如何選擇K Means中K的值

k means需要設定乙個簇心個數的引數,現實中,最常用於確定k數的方法,其實還是人手工設定。例如,當我們決定將衣服做成幾個碼的時候,其實就是在以 人的衣服的長和寬為為特徵進行聚類。所以,弄清楚我們更在意的是什麼,能夠 引導選擇更合適的k值。有種方法能自動決定k值,也就是所謂的elbow metho...

knn距離度量影響 KNN中K以及 距離度量

從k近鄰演算法 距離度量談到kd樹 sift bbf演算法 結構之法 演算法之道 csdn部落格 blog.csdn.net knn中的k值選取對k近鄰演算法的結果會產生重大影響。如李航博士的一書 統計學習方法 上所說 如果選擇較小的k值,就相當於用較小的領域中的訓練例項進行 學習 近似誤差會減小,...

K means中K值的選擇

kmeans是最簡單的聚類演算法之一,但是運用十分廣泛。最近在工作中也經常遇到這個演算法。kmeans一般在資料分析前期使用,選取適當的k,將資料分類後,然後分類研究不同聚類下資料的特點。kmeans的計算方法如下 1.隨機選取k個中心點 2.遍歷所有資料,將每個資料劃分到最近的中心點中 3.計算每...