資料標準化(歸一化)方法

2021-09-12 09:35:01 字數 1098 閱讀 2089

在現實生活中,乙個目標變數(y)可以認為是由多個特徵變數(x)影響和控制的,那麼這些特徵變數的量綱和數值的量級就會不一樣,比如x1 = 10000,x2 = 1,x3 = 0.5 可以很明顯的看出特徵x1和x2、x3存在量綱的差距;x1對目標變數的影響程度將會比x2、x3對目標變數的影響程度要大(可以這樣認為目標變數由x1掌控,x2,x3影響較小,一旦x1的值出現問題,將直接的影響到目標變數的**,把目標變數的**值由x1獨攬大權,會存在高風險的**)而通過標準化處理,可以使得不同的特徵變數具有相同的尺度(也就是說將特徵的值控制在某個範圍內),這樣目標變數就可以由多個相同尺寸的特徵變數進行控制,這樣,在使用梯度下降法學習引數的時候,不同特徵對引數的影響程度就一樣了。比如在訓練神經網路的過程中,通過將資料標準化,能夠加速權重引數的收斂。

簡而言之:對資料標準化的目的是消除特徵之間的差異性,便於特徵一心一意學習權重。

我們可以知道當原始資料不同維度上的特徵的尺度(單位)不一致時,需要標準化步驟對資料進行預處理,反之則不需要進行資料標準化。

例如下面這幾類問題一般都需要進行資料標準化:

1回歸問題

2機器學習演算法

3訓練神經網路

4聚類問題

5pca(主成分分析)

1. min-max歸一化(線性函式歸一化)

線性函式將原始資料線性化的方法轉換到[0, 1]的範圍。計算公式如下:

在不涉及距離度量、協方差計算、資料不符合正太分布的時候,使用該方法比較好。

2. 0均值標準化(z-score standardization)

該方法將某變數中的觀察值減去該變數的平均數,然後除以該變數的標準差,標準化後的資料符合標準正態分佈,即均值為0,標準差為1。計算公式如下:

在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用pca技術進行降維、涉及到正態分佈的時候使用該方法較好。

資料標準化(歸一化)

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化

資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...

資料標準化 歸一化

公式 x x x frac x x 公式 x x xm inxm ax x mi nx frac x x xma x x min x xm in 公式 x x xm ax x frac x xm ax x 注 該方法用於稀疏資料。公式 x x xm edia niqr x frac x iqr x ...