評價
評價是現代社會各領域的一項經常性的工作,是科學做出管理決策的重要依據。隨著人們研究領域的不斷擴大,所面臨的評價物件日趨複雜,如果僅依據單一指針對事物進行評價往往不盡合理,必須全面地從整體的角度考慮問題,多指標綜合評價方法應運而生。所謂多指標綜合評價方法,就是把描述評價物件不同方面的多個指標的資訊綜合起來,並得到乙個綜合指標,由此對評價物件做乙個整體上的評判,並進行橫向或縱向比較。
而在多指標評價體系中,由於各評價指標的性質不同,通常具有不同的量綱和數量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。因此,為了保證結果的可靠性,需要對原始指標資料進行標準化處理。
目前資料標準化方法有多種,歸結起來可以分為直線型方法(如極值法、標準差法)、折線型方法(如三折線法)、曲線型方法(如半正態性分布)。不同的標準化方法,對系統的評價結果會產生不同的影響,然而不幸的是,在資料標準化方法的選擇上,還沒有通用的法則可以遵循。
常見的方法有:min-max標準化(min-max normalization),log函式轉換,atan函式轉換,z-score標準化(zero-mena normalization,此方法最為常用),模糊量化法。本文只介紹min-max法(規範化方法),z-score法(正規化方法),比例法(歸一化方法)
標準化概念(normalization)
資料的標準化(nomalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。
歸一化其中最典型的就是資料的歸一化處理,即將資料統一對映到[0, 1]區間上,常見的資料歸一化的方法有:min-max標準化(min-max normalization),也叫離差標準化、z-score標準化(zero-mean normalization),也叫標準差標準化。
規範化方法(離差標準化(min-max normalization))
是對原始資料的線性變換,使結果落在[0, 1]區間。
公式:
對序列x
1x_1
x1, x
2x_2
x2, x
3x_3
x3, …
\ldots
…, x
nx_n
xn進行變換:
y i=
xi−m
in1≤
j≤nm
ax1≤
j≤n−
min1
≤j≤n
y_i = \frac \}\-min_ \}
yi=ma
x1≤j
≤n−
min1
≤j≤n
xi
−min
1≤j≤
n則新序列y
1y_1
y1, y
2y_2
y2, y
3y_3
y3, …
\ldots
…, y
ny_n
yn ∈
\in∈[0,
1]
[0, 1]
[0,1
]且無量綱。一般的資料需要時都可以考慮先進行規範化處理。
max為樣本資料的最大值,min為樣本資料的最小值。這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義,否則會有新加入資料標準化的結果不對映到[0,1]區間上。
z-score法(正規化方法(標準差標準化(zero-mean normalization)))
經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。
正態分佈公式:
f (x
)=1σ
2πe−
12(x
−μσ)
2f(x)=\frac}e^(\frac)^2}
f(x)=σ
2π1
e−2
1(σ
x−μ
)2正規化公式:
對序列x1,
…,xn
x_1, \ldots, x_n
x1,…,
xn進行變換:
y i=
xi−x
‾s,這
裡x‾=
1n∑i
=1nx
i,s=
1n−1
∑i=1
n(xi
−x‾)
2y_i = \frac,這裡\overline x = \frac\sum_^n x_i, s=\sqrt \sum_^n (x_i - \overline x)^2}
yi=sx
i−x
,這裡
x=n1
i=1
∑nx
i,s
=n−1
1i=
1∑n
(xi
−x)2
則新序列y1,
y2,…
,y
ny_1, y_2, \ldots, y_n
y1,y2
,…,
yn的均值為0,而方差為1,且無量綱。這種方法基於原始資料的均值(x
‾\overline x
x)和標準差(s)進行資料的標準化。z-score標準化方法適用於某屬性的最大值最小值未知的情況,或有超出取值範圍的離群資料的情況。
標準化 歸一化 傻傻分不清
在一篇知乎的帖子說 "標準化"和"歸一化"這兩個中文詞要指代四種feature scaling(特徵縮放)方法。具體可通過參考文獻[3]檢視。
[1]張博208.三種常用資料標準化方法[j/ol].csdn.2017-04-15.
[2]coder_gray.三種常用資料標準化方法.csdn.2019-02-25.
[3]知乎使用者.標準化和歸一化什麼區別?.知乎.2018-05-16.
常用的資料標準化方法
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是0 1標準化和z標準化 也叫離差標準化,是對原始資料的線性變換,使...
資料的標準化和標準化方法
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...
資料的標準化和標準化方法
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量綱的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...