sklearn資料標準化

2021-09-01 14:49:21 字數 2356 閱讀 9737

解釋1

解釋2sklearn資料標準化

from sklearn import preprocessing

import numpy as np

資料標準化常見方法:

離差標準化:結果對映到[0,1]區間

sklearn實現方法:

採用minmaxscaler或者maxabsscaler,使用方法與standardscaler類似,只需用minmaxscaler或者maxabsscaler替換。

將資料變換到[0,1]區間

min_max_scaler=preprocessing.minmaxscaler()

x_train_minmax=min_max_scaler.fit_transform(x_train)

x_train_minmax

結果

array([[0.5       , 0.        , 1.        ],

[1. , 0.5 , 0.33333333],

[0. , 1. , 0. ]])

z-score標準化(正規化方法):新序列均值為0,方差為1

sklearn實現方法:

第一種是scale函式,提供一種快速方法,適用於矩陣的資料集

主要語句:

x_train=np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])

x_scaled=preprocessing.scale(x_train)

x_scaled

變換後的資料具有0均值和單位方差

array([[ 0.        , -1.22474487,  1.33630621],

[ 1.22474487, 0. , -0.26726124],

[-1.22474487, 1.22474487, -1.06904497]])

x_scaled.mean(axis=0)
array([0., 0., 0.])
x_scaled.std(axis=0)
array([1., 1., 1.])
第二種方法提供了實用類standardscaler,該類採用transformaer api計算訓練集的均值和方差,以便於之後將同樣的變換用於測試集。

standardscaler

其中fit函式計算資料集的均值和方差用於之後的變換。

fit_transform():計算並變換

get_params():引數

transform():利用規範化方法進行變換

屬性中由mean_,var_,等

訪問方式:x_scaled.mean_

歸一化方法

x_train
結果

array([[ 1., -1.,  2.],

[ 2., 0., 0.],

[ 0., 1., -1.]])

矩陣格式的轉換

rows[:,np.newaxis]

rows[:,0]

saleprice_scaler
array([[ 0.34727322],

[ 0.00728832],

[ 0.53615372],

...,

[ 1.07761115],

[-0.48852299],

[-0.42084081]])

n1=saleprice_scaler[:,0]

n1

array([ 0.34727322,  0.00728832,  0.53615372, ...,  1.07761115,

-0.48852299, -0.42084081])

n1[:,np.newaxis]
array([[ 0.34727322],

[ 0.00728832],

[ 0.53615372],

...,

[ 1.07761115],

[-0.48852299],

[-0.42084081]])

argsort

作用:返回經過排序後的矩陣索引

sklearn資料標準化

encoding utf 8 created on 2015年10月13日 author zhoumeixu204 sklearn資料標準化,資料標準化有三種 第一種是z score,或者去除均值和方差縮放 from sklearn import preprocessing import numpy...

sklearn 資料標準化

資料集標準化 函式 sklearn.preprocessing.scale x,axis 0,with mean true,with std true,copy true 引數解釋 x 要標準化的資料,numpy的array類資料。axis int 0 by default 0表示特徵的標準化,1表...

使用sklearn對資料進行標準化 正則化

也叫離差標準化,是對原始資料的線性變換,使結果落到 0,1 區間,轉換函式如下 x x mi nmax min x frac x max min x mi n 其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。...