機器學習必知必會 如何理解機器學習中的正則化

2021-09-10 05:47:48 字數 1550 閱讀 8155

機器學習中經常會在損失函式

目的:防止模型過擬合

原理:在損失函式上加上某些規則(限制),縮小解空間,從而減少求出過擬合解的可能性

例子:以最簡單的線性模型為例

最小二乘估計:

嶺回歸:

在數學上我們可以證明嶺估計的引數模要嚴格小於最小二乘估計的引數模,換句話說,我們可以認為加入l2正則項後,估計引數長度變短了,這在數學上被稱為特徵縮減(shrinkage)。

shrinkage方法介紹:指訓練求解引數過程中考慮到係數的大小,通過設定懲罰係數,使得影響較小的特徵的係數衰減到0,只保留重要特徵的從而減少模型複雜度進而達到規避過擬合的目的。常用的shinkage的方法有lasso(l1正則化)和嶺回歸(l2正則化)等。
採用shrinkage方法的主要目的包括兩個:一方面因為模型可能考慮到很多沒必要的特徵,這些特徵對於模型來說就是雜訊,shrinkage可以通過消除雜訊從而減少模型複雜度;另一方面模型特徵存在多重共線性(變數之間相互關聯)的話可能導致模型多解,而多解模型的乙個解往往不能反映模型的真實情況,shrinkage可以消除關聯的特徵提高模型穩定性。
通過令目標函式導函式為0,我們可以得到引數的表示式為:

給損失函式加上的正則化項可以有多種形式,下面給出了正則化的一般形式:

其中m是引數的個數,也是模型特徵的維數;q是正則項的階數,l2正則項的q為2。

考慮到在高維資料下很難給出正則項的幾何意義,我們假設資料來源只有兩個特徵:

正則項函式值圖

函式等高線:

最小化目標函式時,可以看做在控制損失函式不變的情況時令正則項最小化,幾何意義如下所示:藍色圈表示沒有限制的損失函式隨著w迭代尋找著最小化的過程的e(w)函式等高線(同個圓上的損失函式值相同),藍色圈和橙色圈相交的點即目標函式最小化的引數值w*。

可以看到,l1正則化的最優引數值w*恰好是w1=0的時候,意味著我們剔除了模型中乙個特徵(係數為0等價於剔除該特徵),從而達到了降低模型複雜度的目的。在這個意義上l1正則化效果要優於l2正則化,但l1存在拐點不是處處可微,從而l2正則化有更好的求解特性

梳理一下,正則化有多種方式,包括l0(向量中非零元素個數),l1(向量中元素絕對值之和),l2(向量的模)。但是l0範數的求解是個np完全問題,而l1也能實現稀疏並且比l0有更好的優化求解特性而被廣泛應用。l2範數指各元素平方和後開根的值,可令w每個元素接近於0,雖然不如l1更徹底地降低模型複雜度,但是由於處處可微降低了計算難度。

機器學習必知必會 交叉驗證

當我們根據資料訓練出乙個機器學習模型時,我們希望它在新的資料上也保持較高的準備率,這就需要我們對學習到的不同模型有乙個模型評估準則。為了評估模型的泛化效能 指模型在未知資料上的 能力 防止模型落入 過擬合 的陷進。我們人為地將原始資料劃分為訓練集和測試集,前者用於訓練模型,後者用於評估模型的泛化效能...

正則化 機器學習必知必會 正則化

機器學習中經常會在損失函式中加入正則項,稱之為正則化 regularize 目的 防止模型過擬合 原理 在損失函式上加上某些規則 限制 縮小解空間,從而減少求出過擬合解的可能性 例子 以最簡單的線性模型為例 線性回歸模型 我們在統計學習中接觸到線性回歸的最小二乘估計和正則化的嶺回歸與拉索回歸。最小二...

機器學習必知必會 損失函式與風險函式

引入 我們需要一定的準則來評估不同機器學習模型的優劣,這就引申出損失函式和風險函式。損失函式 評估模型單次 的好壞 風險函式 度量平均意義下模型的好壞 損失函式的定義 監督學習是在假設空間f ff中選取模型f ff作為決策函式,對於給定的輸入x xx,由f x f x f x 給出相應的輸出y yy...