資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。
其中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上,常見的資料歸一化的方法有:
也叫離差標準化,是對原始資料的線性變換,使結果落到[0,1]區間,轉換函式如下:
其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。
通過以10為底的log函式轉換的方法同樣可以實現歸一下,具體方法如下:
看了下網上很多介紹都是x*=log10(x),其實是有問題的,這個結果並非一定落到[0,1]區間上,應該還要除以log10(max),max為樣本資料最大值,並且所有的資料都要大於等於1。
用反正切函式也可以實現資料的歸一化:
使用這個方法需要注意的是如果想對映的區間為[0,1],則資料都應該大於等於0,小於0的資料將被對映到[-1,0]區間上。
而並非所有資料標準化的結果都對映到[0,1]區間上,其中最常見的標準化方法就是z標準化,也是spss中最為常用的標準化方法:
也叫標準差標準化,經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:
其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。
**資料分析
» 《資料的標準化》
資料的歸一化
正常情況下,資料的處理用的都是線性歸一化,但是如果實驗的資料服從某種分布函式時,其中最多的就是正態分佈了,假設實驗資料是服從正態分佈的,我們可以通過乙個函式來對資料進行變換,這個函式選取的原則就是使得原有資料中的資訊量最多,即資訊熵最大。首先我說一下資訊熵的計算方法 可能這裡講熵的概念更難理解了,換...
資料歸一化
近來,在網上搜了很多關於資料歸一化的帖子,看了太多,很雜,這裡整理總結一下 歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快。比如說,對於奇異樣本資料 所謂奇異樣本資料資料指的是相對於其他...
資料歸一化
如果對神經網路的 輸入和 輸出數 據進行 一定的 預處理 可以加快網路的訓練速 度 matlab 中 提供的預 處理方 法有歸一化處理 將每組資料都變為 1 至 1 之 間數 所涉及 的函式有 premnmx postmnmx tramnmx 標準化處理 將每組資料都為均 值為 0,方 差 為 1 ...