歸一化 標準化 正則化

2021-10-04 16:07:32 字數 1061 閱讀 4960

無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈;區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如[0,1]等。

標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈

z =x

−μ

σz = \frac

z=σx−μ

​ 區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如[0,1]等。

對基於gradient descent演算法友好,可能可以讓演算法最終收斂並且提高訓練速度和精度。現在deep learning大都基於這演算法訓練。

x no

rm=x

−xmi

nxma

x−xm

in

x_ = \frac}-x_}

xnorm​

=xma

x​−x

min​

x−xm

in​​

防止訓練過擬合的手段

一般形式,應該是 min

r是regularization term。一般方法有

如果模型用梯度下降來進行求解,資料歸一化主要對收斂速度產生影響。將各個特徵對映到同乙個區間內,可以使得各個特徵的更新速度變得更一致,容易更快地通過梯度下降找到最優解。

通過梯度下降求解的模型通常需要歸一化,包括線性回歸、邏輯回歸、支援向量機、神經網路等。但對於決策樹並不適用。例如c4.5節點**主要依據資訊增益比,而歸一化並不會改變資訊增益比。

注:經過實踐,確實是這樣,有可能歸一化之後反而使決策樹效能下降。

about feature scaling and normalization

標準化 歸一化 正則化

x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...

歸一化 標準化 正則化

我們經常將歸一化和標準化弄混淆,下面簡單描述一下他們之間的差異 歸一化的目標是找到某種對映關係,將原資料對映到 a,b a,b 區間上。一般a,b a,b會取 1 1 0,1 1,1 0,1 這些組合 a b 一般有兩種應用場景 常用min max normalization 用大數定理將資料轉化為...

歸一化,標準化與正則化

歸一化 resaling 一般是將資料對映到指定的範圍,用於去除不同維度放入量綱以及量綱單位。常見的對映範圍有 0,1 和 1,1 最常見的歸一化方法就是min max 歸一化 最常見的標準化方法 z score 標準化。其中 是樣本均值,是樣本資料的標準差。上圖則是乙個散點序列的標準化過程 原圖 ...