資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權
歸一化將資料統一對映到[0,1]的範圍內,消除不同資料之間的尺度和單位影響。
公式:x∗=
x−xm
inxm
ax−x
mi
nx^* = \frac} -x_}
x∗=xma
x−x
min
x−xm
in
標準化(z-score)
處理的資料符合標準正態分佈,即均值為0,標準差為1。不限制資料範圍
公式:x∗=
x−μσ
x^* = \frac
x∗=σx−
μ其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。
歸一化改變了原始資料的乙個分布。
對不同特徵維度的伸縮變換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。
1. 優點:
- 提高迭代求解的收斂速度
- 提高迭代求解的精度
2. 缺點:
新加入資料,最大最小資料發生變化時,需要重新計算
標準化:
不改變原始資料的分布。
對不同特徵維度的伸縮變換的目的是使得不同度量之間的特徵具有可比性。
1. 優點:
- 使得不同度量之間的特徵具有可比性,對目標函式的影響體現在幾何分布上,而不是數值上。
- 不改變原始資料的分布
2. 缺點:
原始資料的分布可以近似為高斯分布(正態分佈),否則效果會變得很糟糕
歸一化和標準化區別
歸一化 對資料的數值範圍進行特定縮放,但不改變其資料分布的一種線性特徵變換。1.min max 歸一化 將數值範圍縮放到 0,1 但沒有改變資料分布 min max歸一化 2.z score 歸一化 將數值範圍縮放到0附近,但沒有改變資料分布 z score歸一化 標準化 對資料的分布的進行轉換,使...
歸一化和標準化
主要是讀了這篇文章才深入理解這兩個的區別 歸一化 對原始資料進行線性轉換到 0,1 區間,如下 最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景 標準化 最常用的方法是z score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下 其中理論解釋 歸一化的依據非常簡...
標準化 和 歸一化
1 把數變為 0,1 之間的小數 主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。2 把有量綱表示式變為無量綱表示式 歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。好處 1 歸一化後加快了梯度下降求最優解的速度 2 歸一化有可能...