sklearn 資料標準化

2021-09-18 07:39:46 字數 2401 閱讀 1832

資料集標準化

函式:sklearn.preprocessing.scale(x, axis=0, with_mean=true, with_std=true, copy=true)

引數解釋:

x :

要標準化的資料,numpy的array類資料。

axis : int (0 by default)

0表示特徵的標準化,1表示樣本的標準化。預設為0。

with_mean : boolean, true by default

是否中心化。

with_std : boolean, true by default

是否標準化。

copy : boolean, optional, default true

是否複製。

**例項:

from sklearn.preprocessing import scale

import numpy as np

x = np.array([[ 1.,-1.,2.],[ 2.,0.,0.],[ 0.,1.,-1.]])

x_scale=scale(x=x,with_mean=true,with_std=true,copy=true)

print('原始資料:\n',x)

print('標準化資料:\n',x_scale)

執行結果為:

原始資料:

[[ 1. -1. 2.]

[ 2. 0. 0.]

[ 0. 1. -1.]]

標準化資料:

[[ 0. -1.22474487 1.33630621]

[ 1.22474487 0. -0.26726124]

[-1.22474487 1.22474487 -1.06904497]]`

使用scale()函式可以標準化資料,而使用sklearn.preprocessing.standardscaler類,可以儲存訓練集中的引數(均值、方差)直接使用其物件轉換測試集資料。

使用sklearn.preprocessing.standardscaler類,使用該類的好處在於可以儲存訓練集中的引數(均值、方差)直接使用其物件轉換測試集資料。

**例項:

from sklearn.preprocessing import standardscaler

import numpy as np

x = np.array([[ 1.,-1.,2.],[ 2.,0.,0.],[ 0.,1.,-1.]])

scaler=standardscaler().fit(x) #宣告類,並用fit()方法計算後續標準化的mean與std

print('\n均值:',scaler.mean_) #類屬性:均值

print('方差:',scaler.var_) #類屬性:方差

x_scale=scaler.transform(x) #轉換x

print('\n標準化資料:\n',x_scale)

y=np.array([[1.,1.,1.],[2.,2.,2.]])

y_scale=scaler.transform(y) #測試集標準化

print('\n測試集標準化資料:\n',y_scale)

x_scale2=scaler.fit_transform(x) #直接計算並標準化的方法

print('\n原始資料直接標準化:\n',x_scale2)

執行結果:

均值: [1.         0.         0.33333333]

方差: [0.66666667 0.66666667 1.55555556]

標準化資料:

[[ 0. -1.22474487 1.33630621]

[ 1.22474487 0. -0.26726124]

[-1.22474487 1.22474487 -1.06904497]]

測試集標準化資料:

[[0. 1.22474487 0.53452248]

[1.22474487 2.44948974 1.33630621]]

原始資料直接標準化:

[[ 0. -1.22474487 1.33630621]

[ 1.22474487 0. -0.26726124]

[-1.22474487 1.22474487 -1.06904497]]

sklearn資料標準化

encoding utf 8 created on 2015年10月13日 author zhoumeixu204 sklearn資料標準化,資料標準化有三種 第一種是z score,或者去除均值和方差縮放 from sklearn import preprocessing import numpy...

sklearn資料標準化

解釋1 解釋2sklearn資料標準化 from sklearn import preprocessing import numpy as np資料標準化常見方法 離差標準化 結果對映到 0,1 區間 sklearn實現方法 採用minmaxscaler或者maxabsscaler,使用方法與sta...

使用sklearn對資料進行標準化 正則化

也叫離差標準化,是對原始資料的線性變換,使結果落到 0,1 區間,轉換函式如下 x x mi nmax min x frac x max min x mi n 其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。...