歸一化,標準化與正則化

2021-10-04 21:17:51 字數 1685 閱讀 1711

歸一化 (resaling) 一般是將資料對映到指定的範圍,用於去除不同維度放入量綱以及量綱單位。

常見的對映範圍有 [ 0, -1 ] 和 [ -1, 1],最常見的歸一化方法就是min-max 歸一化

最常見的標準化方法:z-score 標準化。

其中μ是樣本均值,σ是樣本資料的標準差。

上圖則是乙個散點序列的標準化過程:原圖 -> 減去均值 -> 除以標準差。

顯而易見,變成了乙個均值為 0 ,方差為 1 的分布,下圖通過 cost 函式讓我們更好的理解標準化的作用。

機器學習的目標無非就是不斷優化損失函式,使其值最小。在上圖中,j (w, b) 就是我們要優化的目標函式。

正則化主要用於避免過擬合的產生和減少網路誤差。

正則化一般具有如下形式:

其中,第1項是經驗風險,第2項是正則項,λ>=0 為調整兩者之間關係的係數。

第1項是經驗風險較小的模型可能較複雜(有多個非零引數),這時,第2項的模型度會較好。

常見的正則項有l1正則l2正則,其中l2正則的控制過擬合的效果比l1正則的好。

正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。

l

pl_p

lp​範數:l

pl_p

lp​正則的l是指l

pl_p

lp​範數,其定義是:

在機器學習中,若使用了∣∣w

∣∣p||w||_p

∣∣w∣∣p

​作為正則項,我們則說該機器學習引入了l

pl_p

lp​正則項。

l1 正則 lasso regularizer

l2 正則 ridge regularizer / weight decay

知乎:

歸一化 標準化 正則化

無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如 0,1 等。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 z ...

標準化 歸一化 正則化

x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...

歸一化 標準化 正則化

我們經常將歸一化和標準化弄混淆,下面簡單描述一下他們之間的差異 歸一化的目標是找到某種對映關係,將原資料對映到 a,b a,b 區間上。一般a,b a,b會取 1 1 0,1 1,1 0,1 這些組合 a b 一般有兩種應用場景 常用min max normalization 用大數定理將資料轉化為...