資料標準化

2021-07-03 06:42:30 字數 1934 閱讀 8686

特徵縮放(feature scaling[1

] )也稱為資料的標準化(normalization),是將資料按比例縮放,使之落入乙個特定區間。不同資料往往具有不同的量綱,會影響到資料分析的結果,為了消除資料之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。其中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上。

資料標準化到同一空間後有兩個好處:

1. 加快了梯度下降求最優解的速度;

2. 有可能提高精度

資料標準化為什麼能提高梯度下降法求解最優解的速度?

如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵x1和x2的區間相差非常大,x1區間是[0,2000],x2區間是 [1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走「之字型」路線(垂直等高線走),從而導致需要迭代很多次才能收斂;

而右圖對兩個原始特徵進行了特徵縮放,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。

因此如果機器學習模型使用梯度下降法求最優解時,特徵縮放往往非常有必要,否則很難收斂甚至不能收斂。

資料標準化為什麼有可能提高精度?

一些分類器需要計算樣本之間的距離(如歐氏距離),例如knn。如果乙個特徵值域範圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域範圍小的特徵更重要)。

也叫離差標準化,是對原始資料的線性變換,使結果落到[0,1]區間,轉換函式如下:x′

=x−min(x

)max(x

)−min(x)

其中ma

x(x)

為樣本資料的最大值,mi

n(x)

為樣本資料的最小值。這種歸一化方法比較適用在數值比較集中的情況。

這種方法有個缺陷,如果max和min不穩定,很容易使得歸一化結果不穩定,當有新資料加入時,可能導致max和min的變化,需要重新定義。實際使用中可以用經驗常量來替代max和min。

經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:x′

=x−μ

σ 其中μ

為所有樣本資料的均值,

σ 為所有樣本資料的標準差。

經常用在資料分化比較大的場景,有些數值很大,有些很小。通過一些數學函式,將原始值進行對映。該方法包括 log、指數,正切等。需要根據資料分布的情況,決定非線性函式的曲線。

log函式轉換

通過以10為底的lo

g 函式轉換的方法同樣可以實現歸一下,具體方法如下:x′

=log10(

x)log10

(max(x

))很多介紹都是x′

=log10(

x),這個結果並非一定落到[0

,1] 區間上,要落到[0

,1] 區間上應該還要除以

log10

(max(x

)),max

(x) 為樣本資料最大值,並且所有的資料都要大於等於1。

arctan函式轉換

用反正切函式也可以實現資料的歸一化: x′

=arctan(x

)∗2π

使用這個方法需要注意的是如果想對映的區間為[0

,1] ,則資料都應該大於等於0,小於0的資料將被對映到[−

1,0]

區間上。

feature scaling - wikipedia, the free encyclopedia

為什麼一些機器學習模型需要對資料進行歸一化

常見的的樣本資料歸一化

資料標準化的幾種方法

資料標準化

從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...

資料標準化

從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...

資料標準化

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...