資料的歸一化處理

2022-04-04 04:46:11 字數 1905 閱讀 4321

資料的標準化

資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。

目前資料標準化方法:直線型方法(如極值法、標準差法)、折線型方法(如三折線法)、曲線型方法(如半正態性分布)。不同的標準化方法,對系統的評價結果會產生不同的影響,然而不幸的是,在資料標準化方法的選擇上,還沒有通用的法則可以遵循。

歸一化

資料標準化中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上。

歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0-1之間是統計的概率分布,歸一化在-1--+1之間是統計的座標分布。歸一化有同

一、統一和合一的意思。無論是為了建模還是為了計算,首先基本度量單位要同一,神經網路是以樣本在事件中的統計分別機率來進行訓練(概率計算)和**的,且sigmoid函式的取值是0到1之間的,網路最後乙個節點的輸出也是如此,所以經常要對樣本的輸出歸一化處理。歸一化是統一在0-1之間的統計概率分布,當所有樣本的輸入訊號都為正值時,與第一隱含層神經元相連的權值只能同時增加或減小,從而導致學習速度很慢。另外在資料中常存在奇異樣本資料,奇異樣本資料存在所引起的網路訓練時間增加,並可能引起網路無法收斂。為了避免出現這種情況及後面資料處理的方便,加快網路學習速度,可以對輸入訊號進行歸一化,使得所有樣本的輸入訊號其均值接近於0或與其均方差相比很小。

1 把數變為(0,1)之間的小數

2 把有量綱表示式變為無量綱表示式

1. 提公升模型的收斂速度

2.提公升模型的精度

最常用的是 min-max標準化 和 z-score 標準化。

min-max標準化

是對原始資料的線性變換,使結果落到[0,1]區間,轉換函式如下:

其中max為樣本資料的最大值,min為樣本資料的最小值。

def normalization(x):

return [(float(i)-min(x))/float(max(x)-min(x)) for i in x]

如果想要將資料對映到[-1,1],則將公式換成:

x* = x* * 2 -1

或者進行乙個近似

x* = (x - x_mean)/(x_max - x_min), x_mean表示資料的均值。

def normalization2(x):

return [(float(i)-np.mean(x))/(max(x)-min(x)) for i in x]

這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。

ps: 將資料歸一化到[a,b]區間範圍的方法:

(1)首先找到原本樣本資料x的最小值min及最大值max

(2)計算係數:k=(b-a)/(max-min)

(3)得到歸一化到[a,b]區間的資料:y=a+k(x-min)  或者 y=b+k(x-max)

即乙個線性變換,在座標上就是求直線方程,先求出係數,代入乙個點對應的值(x的最大/最小就對應y的最大/最小)就ok了。

z-score 標準化(zero-mean normalization)

參考:log函式轉換

通過以10為底的log函式轉換的方法同樣可以實現歸一下,具體方法如下:

使用注意:max為樣本資料最大值,並且所有的資料都要大於等於1。

atan函式轉換

通過反正切函式也可以實現資料的歸一化:

使用這個方法需要注意的是如果想對映的區間為[0,1],則資料都應該大於等於0,小於0的資料將被對映到[-1,0]區間上,而並非所有資料標準化的結果都對映到[0,1]區間上。

歸一化處理資料 python

源自 machine learning in action 1.原因 例如在用 knn 演算法處理資料時,比如有兩個特徵,乙個特徵的取值範圍為0 1,另乙個取值範圍為1w 以上,那麼用歐式距離計算的話第乙個特徵的影響幾乎就會微不足道,為了解決這個問題,在處理資料的時候對資料進行歸一化處理。2.def...

Sklearn 資料歸一化處理

中心化的本質是讓所有記錄減去乙個固定值,即讓資料樣本資料平移到 某個位置。縮放的本質是通過除以乙個固定值,將資料固定在某個範圍之中,取對數也算是一種縮放處理。minmaxscaler有乙個重要引數,feature range,控制我們希望把資料壓縮到的範圍,預設是 0,1 pd.dataframe ...

資料歸一化處理 特徵歸一化

1 定義 資料的歸一化處理,即將資料統一對映到 0,1 區間上。2 方法 1 最大最小標準化 min max normalization 本歸一化方法又稱為離差標準化,使結果值對映到 0 1 之間,轉換函式如下 應用場景 在不涉及距離度量 協方差計算 資料不符合正太分布的時候,可以使用第一種方法或其...