解釋1
解釋2sklearn資料標準化
from sklearn import preprocessing
import numpy as np
資料標準化常見方法:
離差標準化:結果對映到[0,1]區間
sklearn實現方法:
採用minmaxscaler或者maxabsscaler,使用方法與standardscaler類似,只需用minmaxscaler或者maxabsscaler替換。
將資料變換到[0,1]區間
min_max_scaler=preprocessing.minmaxscaler()
x_train_minmax=min_max_scaler.fit_transform(x_train)
x_train_minmax
結果
array([[0.5 , 0. , 1. ],
[1. , 0.5 , 0.33333333],
[0. , 1. , 0. ]])
z-score標準化(正規化方法):新序列均值為0,方差為1
sklearn實現方法:
第一種是scale函式,提供一種快速方法,適用於矩陣的資料集
主要語句:
x_train=np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])
x_scaled=preprocessing.scale(x_train)
x_scaled
變換後的資料具有0均值和單位方差
array([[ 0. , -1.22474487, 1.33630621],
[ 1.22474487, 0. , -0.26726124],
[-1.22474487, 1.22474487, -1.06904497]])
x_scaled.mean(axis=0)
array([0., 0., 0.])
x_scaled.std(axis=0)
array([1., 1., 1.])
第二種方法提供了實用類standardscaler,該類採用transformaer api計算訓練集的均值和方差,以便於之後將同樣的變換用於測試集。
standardscaler
其中fit函式計算資料集的均值和方差用於之後的變換。
fit_transform():計算並變換
get_params():引數
transform():利用規範化方法進行變換
屬性中由mean_,var_,等
訪問方式:x_scaled.mean_
歸一化方法
x_train
結果
array([[ 1., -1., 2.],
[ 2., 0., 0.],
[ 0., 1., -1.]])
矩陣格式的轉換
rows[:,np.newaxis]
rows[:,0]
saleprice_scaler
array([[ 0.34727322],
[ 0.00728832],
[ 0.53615372],
...,
[ 1.07761115],
[-0.48852299],
[-0.42084081]])
n1=saleprice_scaler[:,0]
n1
array([ 0.34727322, 0.00728832, 0.53615372, ..., 1.07761115,
-0.48852299, -0.42084081])
n1[:,np.newaxis]
array([[ 0.34727322],
[ 0.00728832],
[ 0.53615372],
...,
[ 1.07761115],
[-0.48852299],
[-0.42084081]])
argsort
作用:返回經過排序後的矩陣索引
sklearn資料標準化
encoding utf 8 created on 2015年10月13日 author zhoumeixu204 sklearn資料標準化,資料標準化有三種 第一種是z score,或者去除均值和方差縮放 from sklearn import preprocessing import numpy...
sklearn 資料標準化
資料集標準化 函式 sklearn.preprocessing.scale x,axis 0,with mean true,with std true,copy true 引數解釋 x 要標準化的資料,numpy的array類資料。axis int 0 by default 0表示特徵的標準化,1表...
使用sklearn對資料進行標準化 正則化
也叫離差標準化,是對原始資料的線性變換,使結果落到 0,1 區間,轉換函式如下 x x mi nmax min x frac x max min x mi n 其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。...