特徵歸一化

2021-09-29 12:21:52 字數 1996 閱讀 5248

我們在衡量一些事物時,我們總是不能同等程度的看待各個特徵,無法對這個事物做出準確的衡量,即我們沒有將各個特徵量化到統一的區間。為了解決這樣的問題,我們引出了特徵歸一化

目錄

特徵歸一化的概念

特徵歸一化必要性

資料標準化的意義

資料標準化的方法

資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權

其中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上。

(1)對數值型別的特徵做歸一化可以將所有的特徵都統一到乙個大致相同的數值區間內。

(2)從經驗上說,歸一化是讓不同維度之間的特徵在數值上有一定比較性,可以大大提高分類器的準確性

1、資料的量綱不同;數量級差別很大

經過標準化處理後,原始資料轉化為無量綱化指標測評值,各指標值處於同一數量級別,可進行綜合測評分析。

如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。

2、避免數值問題:太大的數會引發數值問題。

3、平衡各特徵的貢獻

一些分類器需要計算樣本之間的距離(如歐氏距離),例如knn。

如果乙個特徵值域範圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域範圍小的特徵更重要)。

4、一些模型求解的需要:加快了梯度下降求最優解的速度

1、min-max標準化

x = (x - min)/(max - min)

通過對資料的每乙個維度的值進行重新調節,使得最終的資料向量落在 [0,1]區間內

應用場景:

這種歸一化方法比較適用在數值比較集中的情況。但是,如果max和min不穩定,很容易使得歸一化結果不穩定,使得後續使用效果也不穩定,實際使用中可以用經驗常量值來替代max和min。而且當有新資料加入時,可能導致max和min的變化,需要重新定義。

在不涉及距離度量、協方差計算、資料不符合正太分布的時候,可以使用該方法。

在處理自然影象時,我們獲得的畫素值在 [0,255] 區間中,常用的處理是將這些畫素值除以 255,使它們縮放到 [0,1]中.

2、標準差標準化,也叫z-score標準化

x =(x - u)/σ u是均值 σ是標準差

處理後的資料符合標準正態分佈。該標準化方法廣泛用於機器學習演算法(svm,lr,nn)

應用場景

在分類、聚類,演算法中需要使用距離來度量相似性的時候、或者使用pca(協方差分析)技術進行降維的時候,z-score 標準化表現更好。

3、非線性歸一化

經常用在資料分化比較大的場景,有些數值很大,有些很小。通過一些數學函式,將原始值進行對映。該方法包括 log、指數,正切等。需要根據資料分布的情況,決定非線性函式的曲線。

(1)log函式轉化到[0,1]。資料要落到[0,1]區間,要求原資料大於等於1

(2)atan反正切函式。要想資料落到[0,1],資料應該大於等於0,小於0的資料被對映到[-1,0]

(3)logistic函式 | sigmoid函式:該函式的曲線是s型的,值域在[0,1]範圍

三、處理哪些問題時需要對資料進行標準化?

1、分類(如k-nearest neighbors演算法)

2、聚類(如k-means演算法)

使用距離(如歐幾里得距離)來判定樣本之間的相似度的分類和聚類問題,都要進行資料規範化。

3、支援向量機svm,邏輯回歸, perceptron, neural networks etc.

上面這些問題使用梯度優化來獲得最優解。比如支援向量機使用梯度優化得到將樣本資料分開的最優超平面。

4、主成分分析

總之,涉及到距離、協方差(比如pca本質涉及協方差計算)、梯度計算的問題要進行標準化。

距離、協方差,是因為要使各特徵貢獻一致所以使用標準化

梯度計算,是因為如果不標準化,模型的收斂會很慢或者不會收斂到最優解。

特徵工程 特徵歸一化

為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...

特徵歸一化優點

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上。1 提公升收斂...

特徵工程之特徵歸一化

百面機器學習 為了消除資料特徵之間的量綱影響,使得不同指標之間具有可比性。在實際應用中,通過梯度下降法求解的模型通常是需要歸一化的。但對於決策樹模型並不適用。對原始資料進行線性變換,使結果對映到 0,1 實現對原始資料的等比縮放。公式如下 x no rm x xmi nxma x xm in x f...