資料預處理之中心化(零均值化)與標準化(歸一化)

2021-09-04 05:05:37 字數 1318 閱讀 3389

在機器學習回歸問題,以及訓練神經網路過程中,通常需要對原始資料進行中心化(零均值化)與標準化(歸一化)預處理。

目的通過中心化和標準化處理,最終得到均值為0,標準差為1的服從標準正態分佈的資料。

原理中心化(又叫零均值化):是指變數減去它的均值。其實就是乙個平移的過程,平移後所有資料的中心是(0,0)。

標準化(又叫歸一化): 是指數值減去均值,再除以標準差。

下圖中以二維資料為例:左圖表示的是原始資料;中間的是中心化後的資料,資料被移動大原點周圍;右圖將中心化後的資料除以標準差,得到為標準化的資料,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。

其實,在不同的問題中,中心化和標準化有著不同的意義,比如在訓練神經網路的過程中,通過將資料標準化,能夠加速權重引數的收斂。對資料進行中心化預處理,這樣做的目的是要增加基向量的正交性。

標準化(歸一化)優點及其方法

標準化(歸一化)兩個優點:

1)歸一化後加快了梯度下降求最優解的速度;

2)歸一化有可能提高精度。

標準化(歸一化)兩種方法:

1)min-max標準化(min-max normalization)

也稱為離差標準化,是對原始資料的線性變換,使結果值對映到 [0 - 1] 之間。轉換函式如下:

其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。

2)z-score標準化(0-1標準化)方法

這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1。

轉化函式為:

其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

中心化 -pca示例

在做pca的時候,我們需要找出矩陣的特徵向量,也就是主成分(pc)。比如說找到的第乙個特徵向量是a = [1, 2],a在座標平面上就是從原點出發到點 (1,2)的乙個向量。

如果沒有對資料做中心化,那算出來的第一主成分的方向可能就不是乙個可以「描述」(或者說「概括」)資料的方向(看圖)。

黑色線就是第一主成分的方向。只有中心化資料之後,計算得到的方向才能比較好的「概括」原來的資料(圖2)。

資料預處理 中心化和標準化

一 中心化 又叫零均值化 和標準化 又叫歸一化 概念及目的?1 在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始資料進行中心化 zero centered或者mean subtraction subtraction表示減去 處理和標準化 standardization或no...

資料預處理 中心化和標準化

中心化 所有資料之和為0 標準化 把資料的分布轉化為正態分佈 最後資料集變成均值為0,方差為1的分布。計算過程如下 處理前後的資料分布對比 當我們處理乙個問題的時候需要用到各種各樣的資料,然而他們的量級時常是不一樣的,比如說在房價分析的時候,我們會有面積 地域 地價等等等等,面積這些都是幾十幾百,而...

資料的中心化(零均值化)和標準化(歸一化)

一 中心化 又叫零均值化 和標準化 又叫歸一化 概念及目的?1 在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始資料進行中心化 zero centered或者mean subtraction subtraction表示減去 處理和標準化 standardization或no...