sklearn 資料預處理

2021-08-19 21:49:12 字數 4303 閱讀 7737

公式為:(x-mean)/std  計算時對每個屬性/每列分別進行。

將資料按期屬性(按列進行)減去其均值,並處以其方差。得到的結果是,對於每個屬性/每列來說所有資料都聚集在0附近,方差為1。

實現時,有兩種不同的方式:

該語言能直接將給定的資料進行。

>>> from sklearn import preprocessing

>>> import numpy as np

>>> x = np.array([[ 1., -1., 2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]])

>>> x_scaled = preprocessing.scale(x)

>>> x_scaled

array([[ 0. ..., -1.22..., 1.33...],

[ 1.22..., 0. ..., -0.26...],

[-1.22..., 1.22..., -1.06...]])

>>>#處理後資料的均值和方差

>>> x_scaled.mean(axis=0)

array([ 0., 0., 0.])

>>> x_scaled.std(axis=0)

array([ 1., 1., 1.])

使用該類的好處在於可以儲存訓練集中的引數(均值、方差)直接使用其物件轉換測試集資料。

>>> scaler = preprocessing.standardscaler().fit(x)

>>> scaler

standardscaler(copy=true, with_mean=true, with_std=true)

>>> scaler.mean_

array([ 1. ..., 0. ..., 0.33...])

>>> scaler.std_

array([ 0.81..., 0.81..., 1.24...])

>>> scaler.transform(x)

array([[ 0. ..., -1.22..., 1.33...],

[ 1.22..., 0. ..., -0.26...],

[-1.22..., 1.22..., -1.06...]])

>>>#可以直接使用訓練集對測試集資料進行轉換

>>> scaler.transform([[-1., 1., 0.]])

array([[-2.44..., 1.22..., -0.26...]])

除了上述介紹的方法之外,另一種常用的方法是將屬性縮放到乙個指定的最大和最小值(通常是1-0)之間,這可以通過preprocessing.minmaxscaler類實現。

使用這種方法的目的包括:

1、對於方差非常小的屬性可以增強其穩定性。

2、維持稀疏矩陣中為0的條目。

>>> x_train = np.array([[ 1., -1.,  2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]])

...>>> min_max_scaler = preprocessing.minmaxscaler()

>>> x_train_minmax = min_max_scaler.fit_transform(x_train)

>>> x_train_minmax

array([[ 0.5 , 0. , 1. ],

[ 1. , 0.5 , 0.33333333],

[ 0. , 1. , 0. ]])

>>> #將相同的縮放應用到測試集資料中

>>> x_test = np.array([[ -3., -1., 4.]])

>>> x_test_minmax = min_max_scaler.transform(x_test)

>>> x_test_minmax

array([[-1.5 , 0. , 1.66666667]])

>>> #縮放因子等屬性

>>> min_max_scaler.scale_

array([ 0.5 , 0.5 , 0.33...])

>>> min_max_scaler.min_

array([ 0. , 0.5 , 0.33...])

當然,在構造類物件的時候也可以直接指定最大最小值的範圍:feature_range=(min, max),此時應用的公式變為:
x_std=(x-x.min(axis=0))/(x.max(axis=0)-x.min(axis=0))

x_scaled=x_std/(max-min)+min

正則化的過程是將每個樣本縮放到單位範數(每個樣本的範數為1),如果後面要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

normalization主要思想是對每個樣本計算其p-範數,然後對該樣本中每個元素除以該範數,這樣處理的結果是使得每個處理後樣本的p-範數(l1-norm,l2-norm)等於1。

p-範數的計算公式:||x||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p

該方法主要應用於文字分類和聚類中。例如,對於兩個tf-idf向量的l2-norm進行點積,就可以得到這兩個向量的余弦相似性。

>>> x = [[ 1., -1.,  2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]]

>>> x_normalized = preprocessing.normalize(x, norm='l2')

>>> x_normalized

array([[ 0.40..., -0.40..., 0.81...],

[ 1. ..., 0. ..., 0. ...],

[ 0. ..., 0.70..., -0.70...]])

>>> normalizer = preprocessing.normalizer().fit(x)  # fit does nothing

>>> normalizer

normalizer(copy=true, norm='l2')

>>>

>>> normalizer.transform(x)

array([[ 0.40..., -0.40..., 0.81...],

[ 1. ..., 0. ..., 0. ...],

[ 0. ..., 0.70..., -0.70...]])

>>> normalizer.transform([[-1., 1., 0.]])

array([[-0.70..., 0.70..., 0. ...]])

若 x為 n維向量,那麼定義 p-範數為:

當p = 1,2,∞ 時候是比較常用的範數。

1-範數是向量各個分量絕對值之和。

2-範數(euclid範數)就是通常所說的向量的長度。

∞-範數是通常所說的最大值範數,指的是向量各個分量絕對值的最大值。

令x= (x1,x2,...,xn).t

1-||x||1 = |x1|+|x2|+...+|xn|

2-||x||2 = (|x1|^2 +

|x2|^2+...+|xn|^2)^1/2

∞-||x||∞ = max(|x1|,|x2|,...,|xn|)

4.3 結論:

||x||∞≤||x||2≤||x||1≤n1/2||x||2≤n||x||∞

sklearn的資料預處理

sklearn是乙個比較常用的機器學習庫,其中的sklearn.preprocessing包含了常用的預處理函式,一般在kaggle等資料競賽 拿到資料的時候,首先要觀察資料特徵,分布等資訊,然後進行資料預處理。資料預處理有利於計算機進行計算。原始資料存在的問題 1.存在缺失值 2.存在異常點及雜訊...

sklearn中的資料預處理

在sklearn中有這麼幾個常用的預處理方法。另外為了將資料預處理的各個階段連線起來還可以使用pipeline。類功能 說明standardscaler 無量綱化 標準化,基於特徵矩陣的列,將特徵值轉換至服從標準正態分佈 minmaxscaler 無量綱化 區間縮放,基於最大最小值,將特徵值轉換到 ...

sklearn中常用資料預處理方法

normalize x,norm l2 axis 1,copy true,return norm false scale input vectors individually to unit norm vector length 範化是將不同變化範圍的值對映到相同的固定範圍,常見的是 0,1 此時也...