機器學習 好想徹底搞明白L1 L2正則

2021-08-26 12:00:14 字數 1464 閱讀 4199

說到先驗的概念就不得不提到貝葉斯理論的概念,由於現在大家都是提倡大資料的時代,而資料量越大,貝葉斯理論中先驗的力量就會越小,但是實際上大多數模型中,尤其是今天我們說的正則化中都有著貝葉斯理論的影子。

但是貝葉斯理論真的很難理解的特別透徹,l1/l2的貝葉斯理論其實就是貝葉斯線性回歸啦,不過真正的貝葉斯線性回歸是增量學習方法進行優化的,而不是利用梯度下降方法,因為梯度下降方法本質上還是將被優化的引數w看作乙個未知的常數在尋找最優值,而不是貝葉斯理論中的看作乙個隨機變數,不斷地去擬合出其**分布。

參考部落格:

貝葉斯線性回歸:【一般都是引用了prml書上的例子】

從貝葉斯的觀點看線性分類和線性回歸:

如何通俗地解釋貝葉斯線性回歸的基本原理?

知乎裡有乙個說的感覺很戳心窩:

就是把多加一層(超)引數變成一種系統的學問【看過貝葉斯回歸明白為什麼l1正則是假設引數w服從拉普拉斯分布,l2正則是正態分佈,最簡單的最大似然是均勻分布後,就可以知道,如果我們知道分布的具體引數σ(都是假設均值維0的,因為不希望w過大,應該在0附近波動模型才穩定),那麼正則中的超引數正則項的懲罰引數就有理可依了啊!!!!】

以下兩幅圖來自:

以上圖中用到的公式可能和我們平時見的長的不一樣,為了計算方便將協方差取了倒數,我們熟悉的兩個分布公式如下

為什麼正則化可以抵抗過擬合?

很多解釋都說正則化是剃刀原理什麼什麼的,引數越小這模型越簡單,其實這種解釋挺玄挺不準確的。有種比較靠譜的解釋說正則化是在bias和variance之間做乙個tradeoff,欠擬合是高bias,過擬合是高variance,正則化的作用是給模型加乙個先驗,lasso(l1)認為模型是拉普拉斯分布,ridge(l2)認為是高斯分布,正則項對應引數的協方差,協方差越小,這個模型的variance越小,泛化 能力越強,也就抵抗了過擬合。

另一種說法:

解釋角度1:l1範數是l0範數的近似凸優化(這個角度又理解不好)

解釋角度2:經典的幾何解釋,畫圖(這個角度感覺很抽象)

解釋角度3:從梯度的數學公式角度(但感覺這個角度很牽強)

欸~未完待續~

統計學習 L1 L2正則化

正則化時結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則項值越大。l2範數 frac sum n f x w y 2 frac w 2 l1範數 frac sum n f x w y 2 w 在所有可能選擇的模型中,能夠很好解釋...

稀疏表示字典學習與L1 L2範數

兩個流程 訓練字典 重建。l1使權值稀疏。l2防過擬合。l1範數可以使權值稀疏,方便特徵提取。l2範數可以防止過擬合,提公升模型的泛化能力。l1和l2正則先驗分別服從的分布 l1是拉普拉斯分布,l2是高斯分布。l0 範數是 x 0 xi xi不等於0 代表非0元素的個數,1,2,3,4,5 非0個數...

機器學習中的L0,L1,L2講解

1.正則化概述 regularization 監督學習可以簡單的理解為在最小化loss function 的同時,保證模型的複雜度盡可能的低,防止出現過擬合 overfitting 常用的loss函式有square loss regression hinge loss svm exp loss ad...