1、什麼是特徵歸一化?
資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權
其中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上。
2、為什麼要進行特徵歸一化(必要性)?
(1)對數值型別的特徵做歸一化可以將所有的特徵都統一到乙個大致相同的數值區間內。
(2)從經驗上說,歸一化是讓不同維度之間的特徵在數值上有一定比較性,可以大大提高分類器的準確性哪些模型需要做歸一化?
1)需要使用梯度下降的模型要做歸一化----因為不做歸一化會使收斂的路徑程z字型下降,導致收斂路徑太慢,而且不容易找到最優解
那就顯而易見了,比如說線性回歸、邏輯回歸、gbdt等
2)需要計算距離的模型需要做歸一化----感覺找不到語言解釋,舉個例子兩個變數,乙個變數的範圍在[0,1]之間,另乙個變數的範圍在[1000,10000]之間,這樣算出來的距離很容易受這個範圍比較大的值影響
模型比如說knn、k-means等
歸一化的幾種方法
min-max標準化
概念:對原始資料進行線性變換,使得結果在[0,1]中間
公式:
3、特徵歸一化的好處
1)歸一化後加快了梯度下降求最優解的速度;
2)歸一化有可能提高精度(如knn)
總結:
資料歸一化不是萬能的,在實際應用中,通過梯度下降法
求解的模型通常是需要資料歸一化的,包括線性回歸
、邏輯回歸
、持向量機(svm)
、神經網路
等模型。
但是決策樹模型並不適用歸一化
資料歸一化處理 特徵歸一化
1 定義 資料的歸一化處理,即將資料統一對映到 0,1 區間上。2 方法 1 最大最小標準化 min max normalization 本歸一化方法又稱為離差標準化,使結果值對映到 0 1 之間,轉換函式如下 應用場景 在不涉及距離度量 協方差計算 資料不符合正太分布的時候,可以使用第一種方法或其...
python歸一化處理 python歸一化處理
一 定義 歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。二 目的 不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需...
機器學習 特徵歸一化處理
對於大多數的機器學習演算法和優化演算法來說,將特徵值縮放到相同區間可以使得獲取效能更好的模型。就梯度下降演算法而言,例如有兩個不同的特徵,第乙個特徵的取值範圍為1 10,第二個特徵的取值範圍1 10000。在梯度下降演算法中,代價函式為最小平方誤差函式,所以在使用梯度下降演算法的時候,演算法會明顯的...