資料標準化的常見方法之Min max

2021-10-18 17:42:52 字數 1907 閱讀 8452

2. min-max標準化

資料標準化表示將資料按比例縮放,使之落入乙個小的特定區間,一般的目的在於:去除資料的單位限制,轉化為量綱的純數值,便於不同單位或數量級的指標能夠進行比較和加權。資料的歸一化便是乙個典型的案例。

把數轉換為(0,1)之間的小數

把有量綱的表示式轉換為無量綱的表示式

歸一化的好處在於:在多指標評價體系中,由於各個評價指標的性質,通常具有不同的量綱和數量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱值水平低指標的作用。因此,為了保證結果的可靠性,需要對原始資料進行標準化處理。

經驗上來說,歸一化就是讓不同維度之間的特徵在數值上有一定比較性,可以大大提高分類器的準確性。

對序列x1,

x2,.

..,x

nx_1,x_2,...,x_n

x1​,x2

​,..

.,xn

​進行變換:

y i=

xi−m

in1≤

j≤nm

ax1≤

j≤n−

min1

≤j≤n

y_i=\frac}}}-min_}}

yi​=ma

x1≤j

≤n​−

min1

≤j≤n

​xi​

−min

1≤j≤

n​​則新序列y1,

y2,.

..,y

n∈[0

,1

]y_1,y_2,...,y_n∈[0,1]

y1​,y2

​,..

.,yn

​∈[0

,1]且無量綱。一般的資料需要時都可以考慮先進行規範化處理。

min-max標準化是對原始資料進行線性變換,將值對映到[0,1]之間。

import numpy as np

import math

"""around(arr,decimals=?)?maintain x decimals

"""class

datanormalization

:def

__init__

(self)

: self.arr = np.array([1

,2,3

,4,5

,6,7

,8,9

])self.x_max = self.arr.

max(

) self.x_min = self.arr.

min(

) self.x_mean = self.arr.mean(

) self.x_std = self.arr.std(

)def

min_maxnorm

(self)

: arr = np.around(

((self.arr - self.x_min)

/(self.x_max - self.x_min)

), decimals =4)

print

("min_maxnorm:{}"

.format

(arr)

)if __name__ ==

"__main__"

: a = datanormalization(

) a.min_maxnorm(

)

執行結果如下:

min_maxnorm:[0

.0.125

0.25

0.375

0.50.625

0.75

0.8751.

]

資料的標準化和標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...

資料的標準化和標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...

常用的資料標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是0 1標準化和z標準化 也叫離差標準化,是對原始資料的線性變換,使...