資料標準化

2021-10-04 05:41:56 字數 1668 閱讀 1085

在機器學習中,對於用到距離的演算法一般都需要對資料進行標準化。

一、標準化的目的

二、標準化的方法

常用的標準化的方法有兩種:中心化和0-1標準化

1、中心化

計算方法:x減去均值再除以標準差

2、0-1標準化

計算方法:x減去最小值再除以最大值與最小值的差。

即:x_std

=(x-

x.min

(axis=0

)) / (

x.max

(axis=0

)-x.min

(axis=0))

三、sklearn中用到的模組

from

sklearn.preprocessing

import

standardscaler

#中心化

from

sklearn.preprocessing

import

minmaxscaler

#0-1

標準化

四、使用方法

(1)scaler =

standardscaler()

scaler.fit

(train_data)

train_data

= scaler.transform

(train_data)

(2)min_max_scaler

= minmaxscaler()

min_max_scaler.fit

(x_train)

x_train

= min_max_scaler.transform

(x_train)

五、舉例

# -*- coding: utf-8 -*-

"""資料標準化

"""import numpy as np

#建立乙個二維陣列

x_train = np.array([[1,-1,2],

[2,0,0],

[0,1,-1]])

x_train.max(axis=0)

x_train.min(axis=0)

from sklearn.preprocessing import standardscaler

from sklearn.preprocessing import minmaxscaler

#z-score標準化,均值為0,方差為1.

scaler = standardscaler() #例項化

scaler.fit(x_train)

x_scaler = scaler.transform(x_train)

x_scaler.mean(axis=0)

x_scaler.std(axis=0)

x_scaler.var(axis=0)

#0-1標準化

min_max_scaler = minmaxscaler() #例項化

min_max_scaler.fit(x_train)

x_minmax = min_max_scaler.transform(x_train)

資料標準化

從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...

資料標準化

特徵縮放 feature scaling 1 也稱為資料的標準化 normalization 是將資料按比例縮放,使之落入乙個特定區間。不同資料往往具有不同的量綱,會影響到資料分析的結果,為了消除資料之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各...

資料標準化

從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...