常用的資料標準化方法 三種

2021-10-07 21:38:53 字數 3161 閱讀 1514

評價

評價是現代社會各領域的一項經常性的工作,是科學做出管理決策的重要依據。隨著人們研究領域的不斷擴大,所面臨的評價物件日趨複雜,如果僅依據單一指針對事物進行評價往往不盡合理,必須全面地從整體的角度考慮問題,多指標綜合評價方法應運而生。所謂多指標綜合評價方法,就是把描述評價物件不同方面的多個指標的資訊綜合起來,並得到乙個綜合指標,由此對評價物件做乙個整體上的評判,並進行橫向或縱向比較。

而在多指標評價體系中,由於各評價指標的性質不同,通常具有不同的量綱和數量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。因此,為了保證結果的可靠性,需要對原始指標資料進行標準化處理。

目前資料標準化方法有多種,歸結起來可以分為直線型方法(如極值法、標準差法)折線型方法(如三折線法)曲線型方法(如半正態性分布)。不同的標準化方法,對系統的評價結果會產生不同的影響,然而不幸的是,在資料標準化方法的選擇上,還沒有通用的法則可以遵循。

常見的方法有:min-max標準化(min-max normalization),log函式轉換,atan函式轉換,z-score標準化(zero-mena normalization,此方法最為常用),模糊量化法。本文只介紹min-max法(規範化方法),z-score法(正規化方法),比例法(歸一化方法)

標準化概念(normalization)

資料的標準化(nomalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。

歸一化其中最典型的就是資料的歸一化處理,即將資料統一對映到[0, 1]區間上,常見的資料歸一化的方法有:min-max標準化(min-max normalization),也叫離差標準化、z-score標準化(zero-mean normalization),也叫標準差標準化

規範化方法(離差標準化(min-max normalization))

是對原始資料的線性變換,使結果落在[0, 1]區間。

公式:

對序列x

1x_1

x1​, x

2x_2

x2​, x

3x_3

x3​, …

\ldots

…, x

nx_n

xn​進行變換:

y i=

xi−m

in1≤

j≤nm

ax1≤

j≤n−

min1

≤j≤n

y_i = \frac \}\-min_ \}

yi​=ma

x1≤j

≤n​−

min1

≤j≤n

​xi​

−min

1≤j≤

n​​則新序列y

1y_1

y1​, y

2y_2

y2​, y

3y_3

y3​, …

\ldots

…, y

ny_n

yn​ ∈

\in∈[0,

1]

[0, 1]

[0,1

]且無量綱。一般的資料需要時都可以考慮先進行規範化處理。

max為樣本資料的最大值,min為樣本資料的最小值。這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義,否則會有新加入資料標準化的結果不對映到[0,1]區間上。

z-score法(正規化方法(標準差標準化(zero-mean normalization)))

經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

正態分佈公式:

f (x

)=1σ

2πe−

12(x

−μσ)

2f(x)=\frac}e^(\frac)^2}

f(x)=σ

2π​1

​e−2

1​(σ

x−μ​

)2正規化公式:

對序列x1,

…,xn

x_1, \ldots, x_n

x1​,…,

xn​進行變換:

y i=

xi−x

‾s,這

裡x‾=

1n∑i

=1nx

i,s=

1n−1

∑i=1

n(xi

−x‾)

2y_i = \frac,這裡\overline x = \frac\sum_^n x_i, s=\sqrt \sum_^n (x_i - \overline x)^2}

yi​=sx

i​−x

​,這裡

x=n1

​i=1

∑n​x

i​,s

=n−1

1​i=

1∑n​

(xi​

−x)2

​則新序列y1,

y2,…

,y

ny_1, y_2, \ldots, y_n

y1​,y2

​,…,

yn​的均值為0,而方差為1,且無量綱。這種方法基於原始資料的均值(x

‾\overline x

x)和標準差(s)進行資料的標準化。z-score標準化方法適用於某屬性的最大值最小值未知的情況,或有超出取值範圍的離群資料的情況。

標準化 歸一化 傻傻分不清

在一篇知乎的帖子說 "標準化"和"歸一化"這兩個中文詞要指代四種feature scaling(特徵縮放)方法。具體可通過參考文獻[3]檢視。

[1]張博208.三種常用資料標準化方法[j/ol].csdn.2017-04-15.

[2]coder_gray.三種常用資料標準化方法.csdn.2019-02-25.

[3]知乎使用者.標準化和歸一化什麼區別?.知乎.2018-05-16.

常用的資料標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是0 1標準化和z標準化 也叫離差標準化,是對原始資料的線性變換,使...

資料的標準化和標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...

資料的標準化和標準化方法

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...