資料預處理之中心化（零均值化）與標準化（歸一化）

在機器學習回歸問題，以及訓練神經網路過程中，通常需要對原始資料進行中心化（零均值化）與標準化（歸一化）預處理。

目的通過中心化和標準化處理，最終得到均值為0，標準差為1的服從標準正態分佈的資料。

原理中心化（又叫零均值化）：是指變數減去它的均值。其實就是乙個平移的過程，平移後所有資料的中心是（0，0）。

標準化（又叫歸一化）：是指數值減去均值，再除以標準差。

下圖中以二維資料為例：左圖表示的是原始資料；中間的是中心化後的資料，資料被移動大原點周圍；右圖將中心化後的資料除以標準差，得到為標準化的資料，可以看出每個維度上的尺度是一致的（紅色線段的長度表示尺度）。

其實，在不同的問題中，中心化和標準化有著不同的意義，比如在訓練神經網路的過程中，通過將資料標準化，能夠加速權重引數的收斂。對資料進行中心化預處理，這樣做的目的是要增加基向量的正交性。

標準化（歸一化）優點及其方法

標準化（歸一化）兩個優點：

1）歸一化後加快了梯度下降求最優解的速度；

2）歸一化有可能提高精度。

標準化（歸一化）兩種方法：

1）min-max標準化（min-max normalization）

也稱為離差標準化，是對原始資料的線性變換，使結果值對映到 [0 - 1] 之間。轉換函式如下：

其中max為樣本資料的最大值，min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時，可能導致max和min的變化，需要重新定義。

2）z-score標準化（0-1標準化）方法

這種方法給予原始資料的均值（mean）和標準差（standard deviation）進行資料的標準化。經過處理的資料符合標準正態分佈，即均值為0，標準差為1。

轉化函式為：

其中μ為所有樣本資料的均值，σ為所有樣本資料的標準差。

中心化 -pca示例

在做pca的時候，我們需要找出矩陣的特徵向量，也就是主成分（pc）。比如說找到的第乙個特徵向量是a = [1, 2]，a在座標平面上就是從原點出發到點 (1,2)的乙個向量。

如果沒有對資料做中心化，那算出來的第一主成分的方向可能就不是乙個可以「描述」（或者說「概括」）資料的方向（看圖）。

黑色線就是第一主成分的方向。只有中心化資料之後，計算得到的方向才能比較好的「概括」原來的資料（圖2）。

一中心化又叫零均值化和標準化又叫歸一化概念及目的？1 在回歸問題和一些機器學習演算法中，以及訓練神經網路的過程中，通常需要對原始資料進行中心化 zero centered或者mean subtraction subtraction表示減去處理和標準化 standardization或no...

中心化所有資料之和為0 標準化把資料的分布轉化為正態分佈最後資料集變成均值為0，方差為1的分布。計算過程如下處理前後的資料分布對比當我們處理乙個問題的時候需要用到各種各樣的資料，然而他們的量級時常是不一樣的，比如說在房價分析的時候，我們會有面積地域地價等等等等，面積這些都是幾十幾百，而...