在機器學習回歸問題,以及訓練神經網路過程中,通常需要對原始資料進行中心化(零均值化)與標準化(歸一化)預處理。
目的通過中心化和標準化處理,最終得到均值為0,標準差為1的服從標準正態分佈的資料。
原理中心化(又叫零均值化):是指變數減去它的均值。其實就是乙個平移的過程,平移後所有資料的中心是(0,0)。
標準化(又叫歸一化): 是指數值減去均值,再除以標準差。
下圖中以二維資料為例:左圖表示的是原始資料;中間的是中心化後的資料,資料被移動大原點周圍;右圖將中心化後的資料除以標準差,得到為標準化的資料,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。
其實,在不同的問題中,中心化和標準化有著不同的意義,比如在訓練神經網路的過程中,通過將資料標準化,能夠加速權重引數的收斂。對資料進行中心化預處理,這樣做的目的是要增加基向量的正交性。
標準化(歸一化)優點及其方法
標準化(歸一化)兩個優點:
1)歸一化後加快了梯度下降求最優解的速度;
2)歸一化有可能提高精度。
標準化(歸一化)兩種方法:
1)min-max標準化(min-max normalization)
也稱為離差標準化,是對原始資料的線性變換,使結果值對映到 [0 - 1] 之間。轉換函式如下:
其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。
2)z-score標準化(0-1標準化)方法
這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1。
轉化函式為:
其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。
中心化 -pca示例
在做pca的時候,我們需要找出矩陣的特徵向量,也就是主成分(pc)。比如說找到的第乙個特徵向量是a = [1, 2],a在座標平面上就是從原點出發到點 (1,2)的乙個向量。
如果沒有對資料做中心化,那算出來的第一主成分的方向可能就不是乙個可以「描述」(或者說「概括」)資料的方向(看圖)。
黑色線就是第一主成分的方向。只有中心化資料之後,計算得到的方向才能比較好的「概括」原來的資料(圖2)。
資料預處理 中心化和標準化
一 中心化 又叫零均值化 和標準化 又叫歸一化 概念及目的?1 在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始資料進行中心化 zero centered或者mean subtraction subtraction表示減去 處理和標準化 standardization或no...
資料預處理 中心化和標準化
中心化 所有資料之和為0 標準化 把資料的分布轉化為正態分佈 最後資料集變成均值為0,方差為1的分布。計算過程如下 處理前後的資料分布對比 當我們處理乙個問題的時候需要用到各種各樣的資料,然而他們的量級時常是不一樣的,比如說在房價分析的時候,我們會有面積 地域 地價等等等等,面積這些都是幾十幾百,而...
資料的中心化(零均值化)和標準化(歸一化)
一 中心化 又叫零均值化 和標準化 又叫歸一化 概念及目的?1 在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始資料進行中心化 zero centered或者mean subtraction subtraction表示減去 處理和標準化 standardization或no...