機器學習中經常會在損失函式中加入正則項,稱之為正則化(regularize)。
目的:防止模型過擬合
原理:在損失函式上加上某些規則(限制),縮小解空間,從而減少求出過擬合解的可能性
例子:以最簡單的線性模型為例
線性回歸模型
我們在統計學習中接觸到線性回歸的最小二乘估計和正則化的嶺回歸與拉索回歸。
最小二乘估計
嶺估計
在數學上我們可以證明嶺估計的引數模要嚴格小於最小二乘估計的引數模,換句話說,我們可以認為加入l2正則項後,估計引數長度變短了,這在數學上被稱為特徵縮減(shrinkage)。
shrinkage方法介紹:指訓練求解引數過程中考慮到係數的大小,通過設定懲罰係數,使得影響較小的特徵的係數衰減到0,只保留重要特徵的從而減少模型複雜度進而達到規避過擬合的目的。常用的shinkage的方法有lasso(l1正則化)和嶺回歸(l2正則化)等。採用shrinkage方法的主要目的包括兩個:一方面因為模型可能考慮到很多沒必要的特徵,這些特徵對於模型來說就是雜訊,shrinkage可以通過消除雜訊從而減少模型複雜度;另一方面模型特徵存在多重共線性(變數之間相互關聯)的話可能導致模型多解,而多解模型的乙個解往往不能反映模型的真實情況,shrinkage可以消除關聯的特徵提高模型穩定性。對於包括多元線性回歸模型、邏輯回歸和svm在內的線性模型,我們需要利用測試集來最小化損失函式從而求得模型引數w。
線性模型的損失函式
目標函式=損失函式+正則項
通過令目標函式導函式為0,我們可以得到引數的表示式為:
引數表示式
給損失函式加上的正則化項可以有多種形式,下面給出了正則化的一般形式:
正則化的一般形式
其中 考慮到在高維資料下很難給出正則項的幾何意義,我們假設資料來源只有兩個特徵:
不同取值時正則項的函式值影象:
不同函式值影象對應的等高線(即俯檢視)為:
影象等高線
最小化目標函式時,可以看做在控制損失函式不變的情況時令正則項最小化,幾何意義如下所示:藍色圈表示沒有限制的損失函式隨著
迭代尋找著最小化的過程的
函式等高線(同個圓上的損失函式值相同),
藍色圈和橙色圈之和就是目標函式值,目標函式最小化的點往往出現在藍圈和橙圈相交的點即目標函式最小化的引數值。
目標函式最小化的幾何展示
可以看到,l1正則化的最優引數值
恰好是
的時候,意味著我們剔除了模型中乙個特徵(係數為0等價於剔除該特徵),
從而達到了降低模型複雜度的目的。在這個意義上l1正則化效果要優於l2正則化,但l1存在拐點不是處處可微,從而l2正則化有更好的求解特性。梳理一下,正則化有多種方式,包括l0(向量中非零元素個數),l1(向量中元素絕對值之和),l2(向量的模)。但是l0範數的求解是個np完全問題,而l1也能實現稀疏並且比l0有更好的優化求解特性而被廣泛應用。
l2範數指各元素平方和後開根的值,可令
每個元素接近於0,
雖然不如l1更徹底地降低模型複雜度,但是由於處處可微降低了計算難度
機器學習必知必會 如何理解機器學習中的正則化
機器學習中經常會在損失函式 目的 防止模型過擬合 原理 在損失函式上加上某些規則 限制 縮小解空間,從而減少求出過擬合解的可能性 例子 以最簡單的線性模型為例 最小二乘估計 嶺回歸 在數學上我們可以證明嶺估計的引數模要嚴格小於最小二乘估計的引數模,換句話說,我們可以認為加入l2正則項後,估計引數長度...
機器學習正則化
設p 1的實 數,p norm 定義為 x i 1 n xi p 1 p 1.1 這裡寫描述 如果方陣a是非奇異的,那麼a的conditio nnumber定義為 a a a 1 condition number是乙個矩陣穩定性或者敏感度的度量。矩陣的condition number在1附近,那麼它...
機器學習 正則化
為了增加模型的泛化能力,避免模型出現過擬合的現象,我們經常會加入正則化處理 當模型偏差較低,但是方差很大,尤其在輸入的維數較高時,很容易出現過擬合現象,當加入正則項,模型損失了一部分偏差,卻大大降低了模型的方差 l1和l2正則是我們經常用到的方法。l1正則 這種方法的結果會讓引數向量中許多元素趨於0...