前情提要:
模型泛化與嶺回歸與lasso
ridge和lasso的後面新增的式子的格式上其實和mse,mae,以及尤拉距離和曼哈頓距離是非常像的
雖然應用場景不同,但是其表示出來的數學思想是非常相近的
對明科夫斯基距離進行泛化可以得到
對於任何向量x,都可以求其第i個維度的p次方的和在開p次方根,在數學上通常稱其為lp範數
(明科夫斯基距離:
)對於ridge來說,寫成
這種樣式,一般稱其為l2正則項
對於lasso來說,寫成
這種樣式,一般稱其為l1正則項
這樣就可以說是,對於嶺回歸來說,就是為損失函式新增乙個l2正則項,對於lasso來說,就是為損失函式新增乙個l1正則項
實際上還存在乙個l0正則項,為損失函式新增乙個項,這個項要讓theta的個數盡可能的小(本質是乙個離散項)
真的要使用的話,實際上用l1取代,因為l0正則的優化是乙個np難的問題
結合這兩種方式,在均方誤差後面新增乙個l1正則項再新增乙個l2正則項,其中引入乙個新的超引數r來表示這兩種正則項的比例是多少
一般使用的時候,先使用嶺回歸,但是如果特徵數特別大的話,就應該優先選擇彈性網,因為彈性網結合了嶺回歸的計算的優點,又結合了lasso的資料篩選的優勢
正則化(L1和L2正則)
稀疏性表示資料中心0佔比比較大 引西瓜書中p252原文 對於損失函式後面加入懲罰函式可以降低過擬合的風險,懲罰函式使用l2範數,則稱為嶺回歸,l2範數相當與給w加入先驗,需要要求w滿足某一分布,l2範數表示資料服從高斯分布,而l1範數表示資料服從拉普拉斯分布。從拉普拉斯函式和高斯函式的影象上看,拉普...
L1和L2正則化
l1和l2正則化 l1與l2正則化都是防止模型過擬合,其方式略有不同。具體請見下文。1 l1 正則化l1正則化 1範數 是指,各權值 變數 特徵 絕對值之和。其作用是產生權值的稀疏模型,也就是讓大部分權值為0.為什麼能產生權值稀疏模型?因為如下圖所示,各權值絕對值之和後得到乙個矩陣,很容易在矩陣的頂...
關於L1和L2正則
l0範數表示向量中非零元素的個數 也就是如果我們使用l0範數,即希望 w的大部分元素都是0 w是稀疏的 所以可以用於ml中做 稀疏編碼 特徵選擇。通過最小化l0範數,來尋找 最少最優的稀疏特徵項 但不幸的是,l0範數的最優化問題是乙個np hard問題,而且理論上有證明,l1範數是l0範數的最優凸近...