機器學習中的標準化和歸一化

2021-10-23 13:35:33 字數 2328 閱讀 5160

這個真的是讓人困惑,分別解釋一下,首先說一下方差和均值

μ =e

(x)σ

=d(x

)\begin \mu&=e(x) \\ \sigma &= \sqrt \end

μσ​=e(

x)=d

(x)​

​1. 歸一化

為什麼叫歸一化,歸一化顧名思義就是將資料轉換到0~1之間

x ′=

x−xm

inxm

ax−x

min=

xxma

x−xm

in−x

minx

max−

xmin

=kx−

cx'=\frac}-x_}=\frac-x_}-\frac}-x_}=kx-c

x′=xma

x​−x

min​

x−xm

in​​

=xma

x​−x

min​

x​−x

max​

−xmi

n​xm

in​​

=kx−

c從上面的數學公式非常容易知道,我們把原始資料轉化到0~1之間了,然後我們計算均值和方差

μ ′=

e(x′

)=e(

kx−c

)=ke

(x)−

c=kμ

−cσ′

=d(x

′)=d

(kx−

c)=k

2d(x

)=kσ

\begin \mu'=e(x')=e(kx-c)=ke(x)-c=k\mu-c\\ \sigma^=\sqrt=\sqrt=\sqrt=k\sigma \end

μ′=e(x

′)=e

(kx−

c)=k

e(x)

−c=k

μ−cσ

′=d(

x′)​

=d(k

x−c)

​=k2

d(x)

​=kσ

​2. 標準化

為什麼叫標準化呢,標準化的意思就是說把資料變成均值為0,方差為1的資料。(如果資料本身為正態分佈,標準化之後就是標準的正態分佈)

x ′=

x−μσ

=kx−

cx'=\frac=kx-c

x′=σx−

μ​=k

x−c看到奇怪的地方了嗎,這兩個抽象後的形式竟然是一樣的,想想這不是廢話嗎,我們再看看均值和方差。

μ ′=

e(x′

)=e(

x−μσ

)=e(

x)−μ

σ=μ−

μσ=0

σ′=d

(x′)

=d(x

−μσ)

=d(x

)σ2=

d(x)

σ=

1\begin \mu'=e(x')=e(\frac)=\frac=\frac=0 \\ \sigma'=\sqrt=\sqrt)}=\sqrt}=\frac}=1 \end

μ′=e(x

′)=e

(σx−

μ​)=

σe(x

)−μ​

=σμ−

μ​=0

σ′=d

(x′)

​=d(

σx−μ

​)​=

σ2d(

x)​​

=σd(

x)​​

=1​看到了吧,如果我們做了標準化,就會把資料轉換成均值為0,方差為1的資料。

3. 極其愚蠢

資料的均值為0,方差為1,這個資料就是標準正態分佈嗎???肯定不是啊,但是我們做完標準化之後資料的描述變為均值為0,方差為1,我們就認為這是正態分佈了,這是極其愚蠢的。注意,線性變換是不會改變資料分布的。

原來是什麼分布,z-score變換之後還是原來的分布。因為z-score做的事情是將資料整體偏移(減法)保證了均值為0,隨後進行壓縮(除法),保證了方差為1。

當資料做了非線性變換之後,才可能改變資料的分布。

思維慣性

為什麼會一直覺得標準化會變成n(0

,1

)n(0,1)

n(0,1)

正態分佈呢,這是因為,自然界中的資料通常是服從正態分佈的,所以標準化之後不會有什麼大的改變,反而會把資料壓縮大一定的範圍,解決量綱不一致問題。

標準化和歸一化,請勿混為一談,透徹理解資料變換

機器學習的歸一化和標準化

一般做機器學習應用的時候大部分時間是花費在特徵處理上,其中很關鍵的一步就是對特徵資料進行歸一化,為什麼要歸一化呢?很多同學並未搞清楚,維基百科給出的解釋 1 歸一化後加快了梯度下降求最優解的速度,主要是加快梯度下降法收斂速度。2 歸一化有可能提高精度。下面我簡單擴充套件解釋下這兩點。有兩種實現方法 ...

標準化與歸一化 機器學習

歸一化和標準化經常被搞混,程度還比較嚴重,非常干擾大家的理解。為了方便後續的討論,必須先明確二者的定義。如果要把輸入資料轉換到 0,1 的範圍,可以用如下公式進行計算 按以上方式進行歸一化以後,輸入資料轉換到 0,1 的範圍。有時候我們希望將輸入轉換到 1,1 的範圍,可以使用以下的公式 以上兩種方...

歸一化和標準化

主要是讀了這篇文章才深入理解這兩個的區別 歸一化 對原始資料進行線性轉換到 0,1 區間,如下 最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景 標準化 最常用的方法是z score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下 其中理論解釋 歸一化的依據非常簡...