機器學習模型中歸一化和標準化的應用場景

2021-10-07 11:10:21 字數 1296 閱讀 4158

歸一化:把每個特徵向量(特別是奇異樣本資料)的值都縮放到相同數值範圍。如[0,1]或[-1,1]。最常用的歸一化形式就是將特徵向量調整為l1範數(就是絕對值相加),使特徵向量的數值之和為1。l2範數就是歐幾里得之和。 

這個方法經常用於確保資料點沒有因為特徵的基本性質而產生較大差異,即確保資料處於同一數量級(同一量綱),提高不同特徵資料的可比性。

概率模型(樹形模型)不需要歸一化,因為它們不關心變數的值,而是關心變數的分布和變數之間的條件概率,如決策樹、rf。而像adaboost、svm、lr、knn、kmeans之類的最優化問題就需要歸一化。

tree-based models doesn』t depend on scaling

non-tree-based models hugely depend on scaling

什麼時候對資料中心化?

在聚類過程中,標準化顯得尤為重要。這是因為聚類操作依賴於對類間距離和類內聚類之間的衡量。如果乙個變數的衡量標準高於其他變數,那麼我們使用的任何衡量標準都將受到該變數的過度影響。

在pca降維操作之前。在主成分pca分析之前,對變數進行標準化至關重要。 這是因為pca給那些方差較高的變數比那些方差非常小的變數賦予更多的權重。而 標準化原始資料會產生相同的方差,因此高權重不會分配給具有較高方差的變數

knn操作,原因類似於kmeans聚類。由於knn需要用歐式距離去度量。標準化會讓變數之間起著相同的作用。

在svm中,使用所有跟距離計算相關的的kernel都需要對資料進行標準化。

在選擇嶺回歸和lasso時候,標準化是必須的。原因是正則化是有偏估計,會對權重進行懲罰。在量綱不同的情況,正則化會帶來更大的偏差。

什麼時候不需要標準化?

當採用普通的線性回歸的時候,是無需標準化的。因為標準化前後,不會影響線性回歸**值。

同時,標準化不會影響logistic回歸,決策樹及其他一些整合學習演算法:such as random forest and gradient boosting.

決策樹不需要歸一化的很大原因應該是:

不需要考慮特徵的值,只需要考慮劃分界限,比如id3 c4.5 cart 的熵和基尼係數,研究物件只是概率分布,對數值不關心。

決策樹的一些優點:

決策樹的一些缺點:

決策樹對變數的量綱差異、離群值的存在以及有偏分布不太敏感,也就是對資料準備要求不高。

有研究表明回歸模型樣本量選擇中,最好各組樣本含量大於解釋變數數的20倍。

機器學習中的標準化和歸一化

這個真的是讓人困惑,分別解釋一下,首先說一下方差和均值 e x d x begin mu e x sigma sqrt end e x d x 1.歸一化 為什麼叫歸一化,歸一化顧名思義就是將資料轉換到0 1之間 x x xm inxm ax x min xxma x xm in x minx ma...

機器學習的歸一化和標準化

一般做機器學習應用的時候大部分時間是花費在特徵處理上,其中很關鍵的一步就是對特徵資料進行歸一化,為什麼要歸一化呢?很多同學並未搞清楚,維基百科給出的解釋 1 歸一化後加快了梯度下降求最優解的速度,主要是加快梯度下降法收斂速度。2 歸一化有可能提高精度。下面我簡單擴充套件解釋下這兩點。有兩種實現方法 ...

標準化與歸一化 機器學習

歸一化和標準化經常被搞混,程度還比較嚴重,非常干擾大家的理解。為了方便後續的討論,必須先明確二者的定義。如果要把輸入資料轉換到 0,1 的範圍,可以用如下公式進行計算 按以上方式進行歸一化以後,輸入資料轉換到 0,1 的範圍。有時候我們希望將輸入轉換到 1,1 的範圍,可以使用以下的公式 以上兩種方...