在機器學習中,對於用到距離的演算法一般都需要對資料進行標準化。
一、標準化的目的
二、標準化的方法
常用的標準化的方法有兩種:中心化和0-1標準化
1、中心化
計算方法:x減去均值再除以標準差
2、0-1標準化
計算方法:x減去最小值再除以最大值與最小值的差。
即:x_std
=(x-
x.min
(axis=0
)) / (
x.max
(axis=0
)-x.min
(axis=0))
三、sklearn中用到的模組
from
sklearn.preprocessing
import
standardscaler
#中心化
from
sklearn.preprocessing
import
minmaxscaler
#0-1
標準化
四、使用方法
(1)scaler =
standardscaler()
scaler.fit
(train_data)
train_data
= scaler.transform
(train_data)
(2)min_max_scaler
= minmaxscaler()
min_max_scaler.fit
(x_train)
x_train
= min_max_scaler.transform
(x_train)
五、舉例
# -*- coding: utf-8 -*-
"""資料標準化
"""import numpy as np
#建立乙個二維陣列
x_train = np.array([[1,-1,2],
[2,0,0],
[0,1,-1]])
x_train.max(axis=0)
x_train.min(axis=0)
from sklearn.preprocessing import standardscaler
from sklearn.preprocessing import minmaxscaler
#z-score標準化,均值為0,方差為1.
scaler = standardscaler() #例項化
scaler.fit(x_train)
x_scaler = scaler.transform(x_train)
x_scaler.mean(axis=0)
x_scaler.std(axis=0)
x_scaler.var(axis=0)
#0-1標準化
min_max_scaler = minmaxscaler() #例項化
min_max_scaler.fit(x_train)
x_minmax = min_max_scaler.transform(x_train)
資料標準化
從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...
資料標準化
特徵縮放 feature scaling 1 也稱為資料的標準化 normalization 是將資料按比例縮放,使之落入乙個特定區間。不同資料往往具有不同的量綱,會影響到資料分析的結果,為了消除資料之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各...
資料標準化
從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...