樣本中心化 標準化

2021-09-25 06:16:38 字數 1102 閱讀 9582

在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始資料進行中心化(zero-centered或者mean-subtraction)處理和標準化(standardization或normalization)處理。目的:通過中心化和標準化處理,得到均值為0,標準差為1的服從標準正態分佈的資料。計算過程由下式表示:

下面解釋一下為什麼需要使用這些資料預處理步驟。先看乙個標準化例子:

在一些實際問題中,我們得到的樣本資料都是多個維度的,即乙個樣本是用多個特徵來表徵的。比如在**房價的問題中,影響房價具有相同的尺度(scale)。這樣,在使用梯度下降法學習引數的時候,不同特徵對引數的影響程度就一樣了。簡言之,當原始資料不同維度上的特徵的尺度(單位)不一致時,需要標準化步驟對資料進行預處理。

下圖中以二維資料為例:左圖表示的是原始資料;中間的是中心化後的資料,資料被移動大原點周圍;右圖將中心化後的資料除以標準差,得到為標準化的資料,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。

其實,在不同的問題中,中心化和標準化有著不同的意義,

接下來以pca為例說下中心化的作用。

下面兩幅圖是資料做中心化(centering)前後的對比,可以看到其實就是乙個平移的過程,平移後所有資料的中心是(0,0).

在做pca的時候,我們需要找出矩陣的特徵向量,也就是主成分(pc)。比如說找到的第乙個特徵向量是a = [1, 2],a在座標平面上就是從原點出發到點(1,2)的乙個向量。

如果沒有對資料做中心化,那算出來的第一主成分的方向可能就不是乙個可以「描述」(或者說「概括」)資料的方向了。還是看圖比較清楚。

黑色線就是第一主成分的方向。只有中心化資料之後,計算得到的方向才能比較好的「概括」原來的資料。

中心化和標準化

x x x 原因 在一些實際問題中,我們得到的樣本資料都是多個維度的,即乙個樣本是用多個特徵來表徵的。很顯然,這些特徵的量綱和數值得量級都是不一樣的,而通過標準化處理,可以使得不同的特徵具有相同的尺度 scale 這樣,在學習引數的時候,不同特徵對引數的影響程度就一樣了。簡言之,當原始資料不同維度上...

歸一化 標準化 中心化

歸一化 把資料變成 0,1 或 1,1 之間的小數。主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。是一種簡化計算的方式,將有量綱的表示式,經過變換,化為無量綱的表示式,成為標量,便於不同單位或量級的指標能夠進行比較和加權。標準化 在機器學習中,我們可能要處理不同種類的...

資料預處理 中心化和標準化

一 中心化 又叫零均值化 和標準化 又叫歸一化 概念及目的?1 在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始資料進行中心化 zero centered或者mean subtraction subtraction表示減去 處理和標準化 standardization或no...