決策樹、rf、xgboost如何處理缺失值?判斷特徵重要性?缺失值不敏感?特徵歸一化(feature scaling),這也是許多機器學習模型都需要注意的問題。
有些模型在各個維度進行不均勻伸縮後,最優解與原來不等價,例如svm。對於這樣的模型,除非本來各維資料的分布範圍就比較接近,否則必須進行標準化,以免模型引數被分布範圍較大或較小的資料占有優勢。
有些模型在各個維度進行不均勻伸縮後,最優解與原來等價,例如logistic regression。對於這樣的模型,是否標準化理論上不會改變最優解。但是,由於實際求解往往使用迭代演算法,如果目標函式的形狀太「扁」,迭代演算法可能收斂得很慢甚至不收斂。所以對於具有伸縮不變性的模型,最好也進行資料標準化。
做歸一化有什麼好處呢?
其一是提公升模型訓練速度。
比如就兩個特徵,乙個特徵取值為0~2000,而另乙個特徵取值為1-5,對其進行優化時,會得到乙個長的橢圓形,導致在梯度下降時,梯度的方向為垂直等高線的方向而走之字形路線,這樣會使迭代慢。相比之下,做過歸一化的迭代就會很快。
feature scaling:(make sure features are on a similar scale)
其二,提公升模型的精度。
在涉及到一些距離計算的演算法時效果顯著,比如演算法要計算歐式距離。做歸一化很有必要,可以讓各個特徵對結果做出的貢獻相同。
關於歸一化的選擇:
1)在分類、聚類演算法中,需要使用距離來度量相似性的時候,或者使用pca技術進行降維的時候,用zscore表現更好。
2)在不涉及距離度量、協方差計算、資料不符合正太分布的時候,可以使用minmaxscore或其他歸一化方法。
碎碎念 好久沒寫啦 經歷了阿里面試結束說過了 等hr 再到hc滿了 被扔進公海 再簡歷進入阿里雲無人問津後 ? 我就認真在做實習的事情了 沒怎麼複習基礎概念 ε=(´ο`*)))唉
機器學習之 歸一化
之前我們討論了幾個機器學習的模型,線性回歸模型 linear regression 和邏輯回歸模型 logistic regression 這一次我們討論一下關於模型資料擬合的問題以及歸一化方法 regularization 過擬合問題 the problem of overfitting 如果我們...
機器學習 資料歸一化
機器學習中,在資料預處理過程中,通過將資料歸一化可以加快梯度下降求最優解的速度,也有可能提高模型計算的精度。常用的歸一化方法主要有兩種 最值歸一化。比如把最大值歸一化成1,最小值歸一化成 1 或把最大值歸一化成1,最小值歸一化成0。適用於本來就分布在有限範圍內的資料。其中常用的方法有 線性比例變換法...
機器學習 歸一化數值
在計算歐氏距離的過程中,數值較大的屬性對結果的貢獻大,如果認為不同屬性權重應該相同的話,就需要將數值歸一化處理。from numpy import def autonorm dataset minvals dataset.min 0 取每列的最小值,返回陣列 print minvals maxval...