中心化:所有資料之和為0
標準化:把資料的分布轉化為正態分佈
最後資料集變成均值為0,方差為1的分布。
計算過程如下:
處理前後的資料分布對比:
當我們處理乙個問題的時候需要用到各種各樣的資料,然而他們的量級時常是不一樣的,比如說在房價分析的時候,我們會有面積、地域、地價等等等等,面積這些都是幾十幾百,而地價這些都是百萬級別的,如果不加處理的放在一起處理,那面積這個標準就沒有任何作用了。
所以這個時候我們就需要用標準化處理這一手段
我們可以呼叫sklearn.perprocessing包裡的scale來處理
from sklearn import preprocessing
import numpy as np
x = np.array([[
1000.,
-1.,
2.,1
.,2.
,-1.
],[2
.,0.
,0.,
1.,3
.,-2
],[0
.,1.
,-1.
,2.,
0.,-
40.]]
)x_scale = preprocessing.scale(x)
得到的新的資料是
[[ 1.41421144, -1.22474487, 1.33630621, -0.70710678, 0.26726124, 0.7344706 ],[-0.70498228, 0., -0.26726124, -0.70710678, 1.06904497, 0.67938531],[-0.70922916, 1.22474487, -1.06904497, 1.41421356, -1.33630621, -1.41385591]])
明顯是乙個在正態分佈裡的排列
我們把它掛出來
原本的1000,-400這種奇奇怪怪的資料頁沒有體現出來,說明這個分布確實合理了(但是這個地方我不知道會不會丟失掉突出資料的資料,很難說)
資料預處理 中心化和標準化
一 中心化 又叫零均值化 和標準化 又叫歸一化 概念及目的?1 在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始資料進行中心化 zero centered或者mean subtraction subtraction表示減去 處理和標準化 standardization或no...
資料預處理 資料標準化
x train np.array 1,1,2 2,0,0 0,1,1 min max scaler preprocessing.minmaxscaler x train minmax min max scaler.fit transform x train print x train minmax ...
中心化和標準化
x x x 原因 在一些實際問題中,我們得到的樣本資料都是多個維度的,即乙個樣本是用多個特徵來表徵的。很顯然,這些特徵的量綱和數值得量級都是不一樣的,而通過標準化處理,可以使得不同的特徵具有相同的尺度 scale 這樣,在學習引數的時候,不同特徵對引數的影響程度就一樣了。簡言之,當原始資料不同維度上...