資料預處理

包：sklearn.preprocessing提供了一些實用的公共函式和轉化類

標準化，或稱為去平均和方差縮放

對乙個資料集進行標準化是大部分機器學習估測器的要求

scikit-learn中的許多學習器都需要將資料集進行標準化處理。資料集的標準化：當個體特徵太過或明顯不遵從高斯正態分佈時，標準化表現的效果較差。實際操作中，經常忽略特徵資料的分布形狀，移除每個特徵均值，劃分離散特徵的標準差，從而等級化，進而實現資料中心化。

例如，用於學習演算法（例如支援向量機的rbf核心或線性模型的l1和l2正則化器）的目標函式中，假設所有特徵都以零為中心並且具有相同量級的方差。如果某乙個特徵的方差大於其他數量級，則可能會對目標函式影響較大，使學習器無法按預期正確地學習其他特徵。

函式scale提供了一種快速簡單的方法來在單個陣列資料集上執行此操作：

公式為：(x-mean)/std 計算時對每個屬性/每列分別進行。

將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。

>>> from sklearn import preprocessing
>>> import numpy as np
>>> x_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
>>> x_scaled = preprocessing.scale(x_train)
>>> x_scaled                                          
array([[ 0.  ..., -1.22...,  1.33...],
[ 1.22...,  0.  ..., -0.26...],
[-1.22...,  1.22..., -1.06...]])

scaled data has zero mean and unit variance:

>>> x_scaled.mean(axis=0)
array([ 0.,  0.,  0.])
>>> x_scaled.std(axis=0)
array([ 1.,  1.,  1.])

!!!提供乙個api，對訓練集進行標準化，對測試集做同樣的標準化

>>> scaler = preprocessing.standardscaler().fit(x_train)
>>> scaler
standardscaler(copy=true, with_mean=true, with_std=true)
>>> scaler.mean_                                      
array([ 1. ...,  0. ...,  0.33...])
>>> scaler.scale_                                       
array([ 0.81...,  0.81...,  1.24...])
>>> scaler.transform(x_train)                           
array([[ 0.  ..., -1.22...,  1.33...],
[ 1.22...,  0.  ..., -0.26...],
[-1.22...,  1.22..., -1.06...]])

這個scaler能在新的資料集上做和訓練集上同樣的縮放轉換

注：1）若設定with_mean=false 或者 with_std=false，則不做centering 或者scaling處理。

2）scale和standardscaler可以用於回歸模型中的目標值處理。

資料預處理

資料預處理

資料預處理

資料預處理

相關推薦