資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。
其中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上,常見的資料歸一化的方法有:
這種方法也叫離差標準化, 對原始資料進行線性變化, 使資料落在[0
,1] 之間, 具體的轉化函式為:x∗
=x−m
inma
x−mi
n 其中max為當前樣本資料中, 該屬性的最大值, min為最小值.
這種方法處理速度快, 但是, 當有新的資料加入時, max和min發生變化, 需要重新歸一化.
通過以10為底的log函式轉化的方法同樣可以實現歸一化, 具體公式如下:x∗
=log
10(x)
log10
(max
) 使用反正切函式也可以實現資料的歸一化:x∗
=ata
n(x)
∗2π
這種方法將所有的資料對映到[−
1,1]
上, 小於0的資料將對映到[−
1,0]
上.這種方法也叫標準差標準化, 經過處理的資料符合標準正態分佈, 即均值為0, 標準差為1, 轉換函式為:x∗
=x−μ
σ 其中,
μ 為樣品的均值,
σ 為樣品的標準差.
z-score 轉化函式中的均值和標準差受離群點影響較大, 因此需要對原有的公式進行改進.
首先使用中位數代替均值, 使用絕對標準差代替標準差.
絕對標準差的計算公式:σa
=∑i=
1m|x
i−μ|
其中,
μ 為樣品的均值或者中位數.
資料歸一化總結
近來,在網上搜了很多關於資料歸一化的帖子,看了太多,很雜,這裡整理總結一下 歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快 比如說,對於奇異樣本資料 所謂奇異樣本資料資料指的是相對於其他...
資料歸一化方法
本文主要介紹兩種基本的資料歸一化方法。歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料...
資料歸一化方法
1 min max標準化 也叫做離差標準化,是一種對原始資料樣本的 線性變換處理,讓樣本從原本的值通過對映轉化為0 1之間的值。norsample sample min max min 其中,min為樣本中的最小值,max為樣本中的最大值。優點是 簡單易行,容易理解實現 缺點是 資料樣本不能頻繁的變...