2020-04-21 21:52:11
問題描述:為什麼需要對數值型別的特徵做歸一化。
問題求解:
為了消除資料特徵之間的量綱影響,我們需要對特徵進行歸一化處理,使得不同指標之間具有可比性。
舉例來說,比如分析乙個人的身高,體重對健康的影響,乙個人的身高範圍在1m~2m之間,乙個人的體重範圍在50kg~100kg之間,如果不做歸一化處理,那麼必然範圍更大的體重對結果的影響會更加明顯。為了得到更精準的結果,需要對數值進行歸一化,使得各個指標的資料在同一數量級,方便比較分析。
對數值型別的特徵做歸一化可以將所有的特徵都統一到乙個大致相同的數值 區間內。最常用的方法主要有以下兩種。
它對原始資料進行線性變換,使結果對映到[0, 1]的範圍,實現對原始資料的等比縮放。歸一化公式如下:
xnorm = (x - xmin) / (xmax - xmin)它會將原始資料對映到均值為 0、標準差為1的分布上。具體來說,假設原始特徵的均值為μ、標準差為σ,那麼 歸一化公式定義為:
z = (x - u) / v另外,對資料做歸一化還有利於梯度下降時模型的收斂。
假設有兩種數值型特徵,x1的取值範圍為 [0, 10],x2的取值 範圍為[0, 3],於是可以構造乙個目標函式符合圖(a)中的等值圖。 在學習速率相同的情況下,x1的更新速度會大於x2,需要較多的迭代才能找到 最優解。如果將x1和x2歸一化到相同的數值區間後,優化目標的等值圖會變成圖(b)中的圓形,x1和x2的更新速度變得更為一致,容易更快地通過梯度下降找到最優解。
歸一化和標準化
主要是讀了這篇文章才深入理解這兩個的區別 歸一化 對原始資料進行線性轉換到 0,1 區間,如下 最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景 標準化 最常用的方法是z score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下 其中理論解釋 歸一化的依據非常簡...
標準化 和 歸一化
1 把數變為 0,1 之間的小數 主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。2 把有量綱表示式變為無量綱表示式 歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。好處 1 歸一化後加快了梯度下降求最優解的速度 2 歸一化有可能...
標準化和歸一化
歸一化 0 1 normalization min max normalization 把數變為 0,1 之間的小數,特徵資料範圍不同歸一化後方便統一處理 這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義 z score 標準化 zero mean normaliz...