這個真的是讓人困惑,分別解釋一下,首先說一下方差和均值
μ =e
(x)σ
=d(x
)\begin \mu&=e(x) \\ \sigma &= \sqrt \end
μσ=e(
x)=d
(x)
1. 歸一化
為什麼叫歸一化,歸一化顧名思義就是將資料轉換到0~1之間
x ′=
x−xm
inxm
ax−x
min=
xxma
x−xm
in−x
minx
max−
xmin
=kx−
cx'=\frac}-x_}=\frac-x_}-\frac}-x_}=kx-c
x′=xma
x−x
min
x−xm
in
=xma
x−x
min
x−x
max
−xmi
nxm
in
=kx−
c從上面的數學公式非常容易知道,我們把原始資料轉化到0~1之間了,然後我們計算均值和方差
μ ′=
e(x′
)=e(
kx−c
)=ke
(x)−
c=kμ
−cσ′
=d(x
′)=d
(kx−
c)=k
2d(x
)=kσ
\begin \mu'=e(x')=e(kx-c)=ke(x)-c=k\mu-c\\ \sigma^=\sqrt=\sqrt=\sqrt=k\sigma \end
μ′=e(x
′)=e
(kx−
c)=k
e(x)
−c=k
μ−cσ
′=d(
x′)
=d(k
x−c)
=k2
d(x)
=kσ
2. 標準化
為什麼叫標準化呢,標準化的意思就是說把資料變成均值為0,方差為1的資料。(如果資料本身為正態分佈,標準化之後就是標準的正態分佈)
x ′=
x−μσ
=kx−
cx'=\frac=kx-c
x′=σx−
μ=k
x−c看到奇怪的地方了嗎,這兩個抽象後的形式竟然是一樣的,想想這不是廢話嗎,我們再看看均值和方差。
μ ′=
e(x′
)=e(
x−μσ
)=e(
x)−μ
σ=μ−
μσ=0
σ′=d
(x′)
=d(x
−μσ)
=d(x
)σ2=
d(x)
σ=
1\begin \mu'=e(x')=e(\frac)=\frac=\frac=0 \\ \sigma'=\sqrt=\sqrt)}=\sqrt}=\frac}=1 \end
μ′=e(x
′)=e
(σx−
μ)=
σe(x
)−μ
=σμ−
μ=0
σ′=d
(x′)
=d(
σx−μ
)=
σ2d(
x)
=σd(
x)
=1看到了吧,如果我們做了標準化,就會把資料轉換成均值為0,方差為1的資料。
3. 極其愚蠢
資料的均值為0,方差為1,這個資料就是標準正態分佈嗎???肯定不是啊,但是我們做完標準化之後資料的描述變為均值為0,方差為1,我們就認為這是正態分佈了,這是極其愚蠢的。注意,線性變換是不會改變資料分布的。
原來是什麼分布,z-score變換之後還是原來的分布。因為z-score做的事情是將資料整體偏移(減法)保證了均值為0,隨後進行壓縮(除法),保證了方差為1。當資料做了非線性變換之後,才可能改變資料的分布。
思維慣性
為什麼會一直覺得標準化會變成n(0
,1
)n(0,1)
n(0,1)
正態分佈呢,這是因為,自然界中的資料通常是服從正態分佈的,所以標準化之後不會有什麼大的改變,反而會把資料壓縮大一定的範圍,解決量綱不一致問題。
標準化和歸一化,請勿混為一談,透徹理解資料變換
機器學習的歸一化和標準化
一般做機器學習應用的時候大部分時間是花費在特徵處理上,其中很關鍵的一步就是對特徵資料進行歸一化,為什麼要歸一化呢?很多同學並未搞清楚,維基百科給出的解釋 1 歸一化後加快了梯度下降求最優解的速度,主要是加快梯度下降法收斂速度。2 歸一化有可能提高精度。下面我簡單擴充套件解釋下這兩點。有兩種實現方法 ...
標準化與歸一化 機器學習
歸一化和標準化經常被搞混,程度還比較嚴重,非常干擾大家的理解。為了方便後續的討論,必須先明確二者的定義。如果要把輸入資料轉換到 0,1 的範圍,可以用如下公式進行計算 按以上方式進行歸一化以後,輸入資料轉換到 0,1 的範圍。有時候我們希望將輸入轉換到 1,1 的範圍,可以使用以下的公式 以上兩種方...
歸一化和標準化
主要是讀了這篇文章才深入理解這兩個的區別 歸一化 對原始資料進行線性轉換到 0,1 區間,如下 最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景 標準化 最常用的方法是z score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下 其中理論解釋 歸一化的依據非常簡...