在機器學習領域中,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,這個時候我們就需要進行資料標準化處理,原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。其中,最典型的就是資料的歸一化處理。
資料的歸一化處理,即將資料統一對映到[0,1]區間上。
1)最大最小標準化(min-max normalization)
2)z-score標準化方法
3)非線性歸一化
本歸一化方法經常用在資料分化比較大的場景,有些數值很大,有些很小。通過一些數學函式,將原始值進行對映。
該方法包括 對數,正切等,需要根據資料分布的情況,決定非線性函式的曲線:
atan反正切函式轉換方法
l2範數歸一化方法
那麼我們為什麼要對資料進行歸一化呢?
舉個例子:
假定為**房價的例子,自變數為面積,房間數兩個,因變數為房價。
那麼可以得到的公式為:
y
yy=θ1x
1+θ2
x2θ_1x_1+θ_2x_2
θ1x1
+θ2
x2其中x
1x_1
x1代表房間數,θ
1θ_1
θ1代表變數x
1x_1
x1前面的係數。
其中x
2x_2
x2代表面積,θ
2θ_2
θ2代表變數x
2x_2
x2前面的係數。
我們給出兩張圖代表資料是否均一化的最優解尋解過程:
未歸一化:
歸一化之後:
我們在尋找最優解的過程也就是在使得損失函式值最小的theta1,theta2。
上述兩幅圖代表的是損失函式的等高線。
可以看出,資料歸一化後,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。
簡而言之,歸一化的目的就是使得預處理的資料被限定在一定的範圍內(比如[0,1]或者[-1,1]),從而消除奇異樣本資料導致的不良影響。
當然,如果不存在奇異樣本資料時,則可以不進行歸一化
參考文獻:
特徵歸一化
我們在衡量一些事物時,我們總是不能同等程度的看待各個特徵,無法對這個事物做出準確的衡量,即我們沒有將各個特徵量化到統一的區間。為了解決這樣的問題,我們引出了特徵歸一化 目錄 特徵歸一化的概念 特徵歸一化必要性 資料標準化的意義 資料標準化的方法 資料的標準化 normalization 是將資料按比...
特徵工程 特徵歸一化
為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...
特徵歸一化優點
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上。1 提公升收斂...