我們要討論的第乙個規範是l0規範。根據定義,x的l0範數是
嚴格來說,l0範數實際上不是乙個範數。它是基數函式,其定義形式為l0-norm,儘管許多人稱其為範數。使用它有點棘手,因為其中存在零次冪和零次方。顯然,任何x> 0都將變為1,但是零次冪(尤其是零次冪)的定義問題使這裡變得混亂。因此,實際上,大多數數學家和工程師都使用l0-範數的此定義:
那就是向量中非零元素的總數。
例如,向量(0,0)和(0,2)的l0範數為1,因為只有乙個非零元素。
l0範數的乙個很好的實用示例是當具有兩個向量(使用者名稱和密碼)時給出nishant shukla的示例。 如果向量的l0範數等於0,則登入成功。 否則,如果l0範數為1,則意味著使用者名稱或密碼不正確,但都不正確。 最後,如果l0規範為2,則意味著使用者名稱和密碼都不正確。
l1範數是空間中向量的大小之和。 這是測量向量之間距離的最自然的方法,即向量分量的絕對差之和。 在此規範中,向量的所有分量均被加權。
根據範數的定義,x的l1-範數定義為
如果為兩個向量或矩陣之間的差計算l1範數,則即
在計算機視覺科學家中,它被稱為絕對差總和(sad)。
在訊號差測量的更一般情況下,可以通過以下方法將其縮放為單位向量:
例如,向量x = [3,4],l1範數的計算公式為:
是最流行的規範,也稱為歐幾里得規範。 這是從乙個點到另乙個點的最短距離。同樣的例子,l2 的演算法如下:
另外我們可以將l1範數實現正則化的線性回歸模型稱為lasso回歸,將l2範數實現(平方)以正則化的線性回歸模型稱為嶺回歸。
l1和l2正則化都可以通過對係數進行縮小(施加懲罰)來防止過度擬合。 l2(ridge)將所有係數按相同的比例縮小,但沒有消除,而l1(lasso)可以將某些係數縮小到零,執行變數選擇。
lasso回歸是一種使用收縮的線性回歸。收縮是資料值向中心點(如均值)收縮的地方。lasso是稀疏的模型(即引數較少的模型)。這種特殊型別的回歸非常適合顯示高水平線性線性關係的模型。
首字母縮寫詞「 lasso」代表最小絕對收縮和選擇算符。
回想lasso最小化問題可以表示為:
可以看成是兩個項的最小值:???+?1
第乙個ols項可以表示為(?−??)?(?−??),這會產生乙個以最大似然估計器為中心的橢圓等高線圖。
第二個?1項是以0為中心的菱形方程(或較大尺寸的菱形)
約束優化的解位於兩個函式的輪廓之間的交點,並且該交點隨of的函式而變化。對於? = 0,解為mle,對於? =∞,解為[ 0,0]
由於在菱形的頂點處,乙個或多個變數的值為0,因此乙個或多個係數的值恰好等於0的可能性不為零。
如下圖所示:
嶺回歸通過使用l2範數減少了係數的大小,從而減少了模型中的高複雜度。 它極大地幫助我們過度擬合和處理離群值。 同樣考慮到l2範數的性質,它是穩定的,並給出了唯一的全域性最小值。
這是減少過度擬合的正則化方法。
我們嘗試使用一條過度擬合訓練資料的趨勢線,因此,其方差比ols高得多。 嶺回歸的主要思想是要增加一條不適合訓練資料的新線。 換句話說,我們將一定的「偏差bias」引入趨勢線。
我們在實踐中要做的是引入乙個稱為lambda的偏差bias,懲罰函式為:lambda * slope ^ 2。
lambda是懲罰項,此值稱為ridge回歸或l2。
l2分是二次的:lambda slope ^ 2:沒有乙個係數(斜率)非常大。
當lambda = 0時,懲罰也為0,因此我們只是在最小化殘差平方和。
當lambda漸近增加時,我們到達接近0的斜率:因此,lambda越大,我們的**對自變數的敏感性就越小。
lambda是控制偏差方差的調整引數,我們通過交叉驗證來估計其最佳值。
如果l1和l2對比,l2比l1要好一些,因為l2之後,精度更好且較好適應、擬合。l1的效果在處理稀疏資料時候比較棒,且有利於稀疏資料的特徵。
面試L0,L1,L2範數
在深度學習中,監督類學習問題其實就是在規則化引數同時最小化誤差。最小化誤差目的是讓模型擬合訓練資料,而規則化引數的目的是防止模型過分擬合訓練資料。引數太多,會導致模型複雜度上公升,容易過擬合,也就是訓練誤差小,測試誤差大。因此,我們需要保證模型足夠簡單,並在此基礎上訓練誤差小,這樣訓練得到的引數才能...
深度學習正則化 L0 L1 L2正則化
概念 l0正則化的值是模型引數中非零引數的個數。l1正則化表示各個引數絕對值之和。l2正則化標識各個引數的平方的和的開方值。先討論幾個問題 1 實現引數的稀疏有什麼好處嗎?乙個好處是可以簡化模型,避免過擬合。因為乙個模型中真正重要的引數可能並不多,如果考慮所有的引數起作用,那麼可以對訓練資料可以 的...
機器學習中L0, L1, L2正則項介紹
l0,l1,l2正則項是機器學習中常用的正則項,本文主要對這三種正則項做乙個簡單的介紹。l0 l0主要是指引數中0的個數,希望引數中的大部分元素是0,希望引數是稀疏的,但是l0有乙個缺點就是難以優化,所以就引出了l1正則項。l1 l1正則項是指向量中各個元素絕對值之和,l0正則項的最優凸近似,它比l...