常見的的樣本資料歸一化

資料的標準化（normalization）是將資料按比例縮放，使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權。

其中最典型的就是資料的歸一化處理，即將資料統一對映到[0,1]區間上，常見的資料歸一化的方法有：

也叫離差標準化，是對原始資料的線性變換，使結果落到[0,1]區間，轉換函式如下：

其中max為樣本資料的最大值，min為樣本資料的最小值。這種方法有乙個缺陷就是當有新資料加入時，可能導致max和min的變化，需要重新定義。

通過以10為底的log函式轉換的方法同樣可以實現歸一下，具體方法如下：

看了下網上很多介紹都是x*=log10(x)，其實是有問題的，這個結果並非一定落到[0,1]區間上，應該還要除以log10(max)，max為樣本資料最大值，並且所有的資料都要大於等於1。

用反正切函式也可以實現資料的歸一化：

使用這個方法需要注意的是如果想對映的區間為[0,1]，則資料都應該大於等於0，小於0的資料將被對映到[-1,0]區間上。

而並非所有資料標準化的結果都對映到[0,1]區間上，其中最常見的標準化方法就是z標準化，也是spss中最為常用的標準化方法：

也叫標準差標準化，經過處理的資料符合標準正態分佈，即均值為0，標準差為1，其轉化函式為：

其中μ為所有樣本資料的均值，σ為所有樣本資料的標準差。

**資料分析

» 《資料的標準化》

資料的歸一化

正常情況下，資料的處理用的都是線性歸一化，但是如果實驗的資料服從某種分布函式時，其中最多的就是正態分佈了，假設實驗資料是服從正態分佈的，我們可以通過乙個函式來對資料進行變換，這個函式選取的原則就是使得原有資料中的資訊量最多，即資訊熵最大。首先我說一下資訊熵的計算方法可能這裡講熵的概念更難理解了，換...

資料歸一化

近來，在網上搜了很多關於資料歸一化的帖子，看了太多，很雜，這裡整理總結一下歸一化是一種資料預處理方法，就是要把你需要處理的資料經過處理後通過某種演算法限制在你需要的一定範圍內，為了後面資料處理的方便，其次是保正程式執行時收斂加快。比如說，對於奇異樣本資料所謂奇異樣本資料資料指的是相對於其他...

資料歸一化

如果對神經網路的輸入和輸出數據進行一定的預處理可以加快網路的訓練速度 matlab 中提供的預處理方法有歸一化處理將每組資料都變為 1 至 1 之間數所涉及的函式有 premnmx postmnmx tramnmx 標準化處理將每組資料都為均值為 0,方差為 1 ...

常見的的樣本資料歸一化

資料的歸一化

資料歸一化

資料歸一化

相關推薦