歸一化一般是將資料對映到指定的範圍,用於去除不同維度資料的量綱以及量綱單位。
常見的對映範圍有 [0, 1] 和 [-1, 1] ,最常見的歸一化方法就是 min-max 歸一化:
舉個例子,我們判斷乙個人的身體狀況是否健康,那麼我們會採集人體的很多指標,比如說:身高、體重、紅細胞數量、白細胞數量等。
乙個人身高 180cm,體重 70kg,白細胞計數 [公式] ,etc.
衡量兩個人的狀況時,白細胞計數就會起到主導作用從而遮蓋住其他的特徵,歸一化後就不會有這樣的問題。
###標準化 normalization
歸一化和標準化的英文翻譯是一致的,但是根據其用途(或公式)的不同去理解(或翻譯)下面我們將**最常見的標準化方法: z-score 標準化。
機器學習的目標無非就是不斷優化損失函式,使其值最小。在上圖中, [公式] 就是我們要優化的目標函式
我們不難看出,標準化後可以更加容易地得出最優引數 [公式] 和 [公式] 以及計算出 [公式] 的最小值,從而達到加速收斂的效果。 [公式]
正則化主要用於避免過擬合的產生和減少網路誤差。
正則化是指為解決適定性問題或過擬合而加入額外資訊的過程,常用的額外項一般有兩種,一般英文稱作 l1−
norm
l_1-norm
l1−no
rm和l 2−
norm
l_2-norm
l2−no
rm,中文稱作 l1正則化 和 l2正則化,或者 l1範數 和 l2範數。
l1正則化和l2正則化可以看做是損失函式的懲罰項。所謂『懲罰』是指對損失函式中的某些引數做一些限制。對於線性回歸模型,使用l1正則化的模型建叫做lasso回歸,使用l2正則化的模型叫做ridge回歸(嶺回歸)。
正則化一般具有如下形式:
其中,第 1 項是經驗風險,第 2 項是正則項, [公式] 為調整兩者之間關係的係數。
第 1 項的經驗風險較小的模型可能較複雜(有多個非零引數),這時第 2 項的模型複雜度會較大。
下面是lasso回歸的損失函式,式中加號後面一項α∣∣
w∣∣1
\alpha∣∣w∣∣_1
α∣∣w∣∣
1即為l1正則化項。
lasso的優化目標為:
下面是ridge回歸的損失函式,式中加號後面一項α∣∣
w∣∣2
2\alpha∣∣w∣∣_2^2
α∣∣w∣∣
22即為l2正則化項。
ridge regression的優化目標為:
一般回歸分析中w
ww表示特徵的係數,從上式可以看到正則化項是對係數做了處理(限制)。l1正則化和l2正則化的說明如下:
l1正則化是指權值向量w
ww中各個元素的絕對值之和,通常表示為∣∣w
∣∣1∣∣w∣∣_1
∣∣w∣∣1
l2正則化是指權值向量w
ww中各個元素的平方和然後再求平方根(可以看到ridge回歸的l2正則化項有平方符號),通常表示為∣∣w
∣∣22
∣∣w∣∣_2^2
∣∣w∣∣2
2一般都會在正則化項之前新增乙個係數,python的機器學習包sklearn中用α
\alpha
α表示,一些文章也用λ
\lambda
λ表示。這個係數需要使用者指定。
歸一化 標準化 正則化
無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如 0,1 等。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 z ...
標準化 歸一化 正則化
x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...
歸一化 標準化 正則化
我們經常將歸一化和標準化弄混淆,下面簡單描述一下他們之間的差異 歸一化的目標是找到某種對映關係,將原資料對映到 a,b a,b 區間上。一般a,b a,b會取 1 1 0,1 1,1 0,1 這些組合 a b 一般有兩種應用場景 常用min max normalization 用大數定理將資料轉化為...