無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈;區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如[0,1]等。
標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈
z =x
−μ
σz = \frac
z=σx−μ
區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如[0,1]
等。
對基於gradient descent演算法友好,可能可以讓演算法最終收斂並且提高訓練速度和精度。現在deep learning大都基於這演算法訓練。
x no
rm=x
−xmi
nxma
x−xm
in
x_ = \frac}-x_}
xnorm
=xma
x−x
min
x−xm
in
防止訓練過擬合的手段
一般形式,應該是 min
r是regularization term。一般方法有
如果模型用梯度下降來進行求解,資料歸一化主要對收斂速度產生影響。將各個特徵對映到同乙個區間內,可以使得各個特徵的更新速度變得更一致,容易更快地通過梯度下降找到最優解。
通過梯度下降求解的模型通常需要歸一化,包括線性回歸、邏輯回歸、支援向量機、神經網路等。但對於決策樹並不適用。例如c4.5節點**主要依據資訊增益比,而歸一化並不會改變資訊增益比。
注:經過實踐,確實是這樣,有可能歸一化之後反而使決策樹效能下降。
about feature scaling and normalization
標準化 歸一化 正則化
x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...
歸一化 標準化 正則化
我們經常將歸一化和標準化弄混淆,下面簡單描述一下他們之間的差異 歸一化的目標是找到某種對映關係,將原資料對映到 a,b a,b 區間上。一般a,b a,b會取 1 1 0,1 1,1 0,1 這些組合 a b 一般有兩種應用場景 常用min max normalization 用大數定理將資料轉化為...
歸一化,標準化與正則化
歸一化 resaling 一般是將資料對映到指定的範圍,用於去除不同維度放入量綱以及量綱單位。常見的對映範圍有 0,1 和 1,1 最常見的歸一化方法就是min max 歸一化 最常見的標準化方法 z score 標準化。其中 是樣本均值,是樣本資料的標準差。上圖則是乙個散點序列的標準化過程 原圖 ...