資料特徵之間往往有著不同的分布區間,差異較大的情況下會很大程度的影響資料分析的結果。為了消除這種現象的影響需要對原始資料進行歸一化處理,使得各個指標處於同一數量級。
(1)max-min歸一化
也叫離差標準化,是對原始資料的線性變換,使結果值對映到[0 - 1]之間。公式為:
x=(x-min)/(max-min)
max:最大值,min:最小值。
(2)z-score標準化
這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1。公式為:
x=(x-u)/t
u:均值,t:標準差
資料歸一化方法
本文主要介紹兩種基本的資料歸一化方法。歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料...
資料歸一化方法
1 min max標準化 也叫做離差標準化,是一種對原始資料樣本的 線性變換處理,讓樣本從原本的值通過對映轉化為0 1之間的值。norsample sample min max min 其中,min為樣本中的最小值,max為樣本中的最大值。優點是 簡單易行,容易理解實現 缺點是 資料樣本不能頻繁的變...
資料歸一化的方法總結
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...