機器學習 正則化

2021-07-24 23:13:22 字數 1119 閱讀 6171

為了增加模型的泛化能力,避免模型出現過擬合的現象,我們經常會加入正則化處理(當模型偏差較低,但是方差很大,尤其在輸入的維數較高時,很容易出現過擬合現象,當加入正則項,模型損失了一部分偏差,卻大大降低了模型的方差)。

l1和l2正則是我們經常用到的方法。

l1正則:這種方法的結果會讓引數向量中許多元素趨於0,使得大部分特徵失去優化目標函式的貢獻。這種方法讓有效特徵變得稀疏的l1正則化模型,通常稱為lasso  

l2正則:這種方法的結果會讓引數向量中的大部分元素變得很小,壓制了引數之間的差異性。這種壓制了引數之間差異性的l2正則化模型,通常稱為ridge(嶺回歸模型 )      

正則項,可以產生稀疏解。

l2正則項,可以縮小特徵係數的大小

實際上,對於l1和l2規則化的代價函式來說,我們可以寫成以下形式:

也就是說,我們將模型空間限制在w的乙個l1-ball 中。為了便於視覺化,我們考慮兩維的情況,在(w1, w2)平面上可以畫出目標函式的等高線,而約束條件則成為平面上半徑為c的乙個 norm ball 。等高線與 norm ball 首次相交的地方就是最優解:

可以看到,l1-ball 與l2-ball 的不同就在於l1在和每個座標軸相交的地方都有「角」出現,而目標函式的測地線除非位置擺得非常好,大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性,例如圖中的相交點就有w1=0,而更高維的時候(想象一下三維的l1-ball 是什麼樣的?)除了角點以外,還有很多邊的輪廓也是既有很大的概率成為第一次相交的地方,又會產生稀疏性。

相比之下,l2-ball 就沒有這樣的性質,因為沒有角,所以第一次相交的地方出現在具有稀疏性的位置的概率就變得非常小了。這就從直觀上來解釋了為什麼l1-regularization 能產生稀疏性,而l2-regularization 不行的原因了。

因此,一句話總結就是:l1會趨向於產生少量的特徵,而其他的特徵都是0,而l2會選擇更多的特徵,這些特徵都會接近於0。lasso在特徵選擇時候非常有用,而ridge就只是一種規則化而已。

機器學習正則化

設p 1的實 數,p norm 定義為 x i 1 n xi p 1 p 1.1 這裡寫描述 如果方陣a是非奇異的,那麼a的conditio nnumber定義為 a a a 1 condition number是乙個矩陣穩定性或者敏感度的度量。矩陣的condition number在1附近,那麼它...

機器學習正則化

正則化項可以是模型引數向量的範數 首先,範數是指推廣到高維空間中的模,給定向量x x1,x2,x3,xn 常用的向量的範數如下 l0範數 向量非零元素的個數 l1範數 向量各個元素絕對值之和 l2範數 向量各個元素的平方和然後求平方根 lp範數 向量各個元素絕對值的p次方求和然後求1 p次方 l正則...

機器學習正則化

機器學習正則化筆記概要 正則化 regularization 是用於抑制過擬合的方法的統稱,它通過動態調整估計引數的取值來降低模型的複雜度,以偏差的增加為代價來換取方差的下降。總結起來 利用貝葉斯概率來確定最優引數的步驟可以歸納如下 求解的物件是已知訓練資料時,測試資料的條件概率 p y y 要計算...