說到先驗的概念就不得不提到貝葉斯理論的概念,由於現在大家都是提倡大資料的時代,而資料量越大,貝葉斯理論中先驗的力量就會越小,但是實際上大多數模型中,尤其是今天我們說的正則化中都有著貝葉斯理論的影子。
但是貝葉斯理論真的很難理解的特別透徹,l1/l2的貝葉斯理論其實就是貝葉斯線性回歸啦,不過真正的貝葉斯線性回歸是增量學習方法進行優化的,而不是利用梯度下降方法,因為梯度下降方法本質上還是將被優化的引數w看作乙個未知的常數在尋找最優值,而不是貝葉斯理論中的看作乙個隨機變數,不斷地去擬合出其**分布。
參考部落格:
貝葉斯線性回歸:【一般都是引用了prml書上的例子】
從貝葉斯的觀點看線性分類和線性回歸:
如何通俗地解釋貝葉斯線性回歸的基本原理?
知乎裡有乙個說的感覺很戳心窩:
就是把多加一層(超)引數變成一種系統的學問【看過貝葉斯回歸明白為什麼l1正則是假設引數w服從拉普拉斯分布,l2正則是正態分佈,最簡單的最大似然是均勻分布後,就可以知道,如果我們知道分布的具體引數σ(都是假設均值維0的,因為不希望w過大,應該在0附近波動模型才穩定),那麼正則中的超引數正則項的懲罰引數就有理可依了啊!!!!】
以下兩幅圖來自:
以上圖中用到的公式可能和我們平時見的長的不一樣,為了計算方便將協方差取了倒數,我們熟悉的兩個分布公式如下
為什麼正則化可以抵抗過擬合?
很多解釋都說正則化是剃刀原理什麼什麼的,引數越小這模型越簡單,其實這種解釋挺玄挺不準確的。有種比較靠譜的解釋說正則化是在bias和variance之間做乙個tradeoff,欠擬合是高bias,過擬合是高variance,正則化的作用是給模型加乙個先驗,lasso(l1)認為模型是拉普拉斯分布,ridge(l2)認為是高斯分布,正則項對應引數的協方差,協方差越小,這個模型的variance越小,泛化 能力越強,也就抵抗了過擬合。
另一種說法:
解釋角度1:l1範數是l0範數的近似凸優化(這個角度又理解不好)
解釋角度2:經典的幾何解釋,畫圖(這個角度感覺很抽象)
解釋角度3:從梯度的數學公式角度(但感覺這個角度很牽強)
欸~未完待續~
統計學習 L1 L2正則化
正則化時結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則項值越大。l2範數 frac sum n f x w y 2 frac w 2 l1範數 frac sum n f x w y 2 w 在所有可能選擇的模型中,能夠很好解釋...
稀疏表示字典學習與L1 L2範數
兩個流程 訓練字典 重建。l1使權值稀疏。l2防過擬合。l1範數可以使權值稀疏,方便特徵提取。l2範數可以防止過擬合,提公升模型的泛化能力。l1和l2正則先驗分別服從的分布 l1是拉普拉斯分布,l2是高斯分布。l0 範數是 x 0 xi xi不等於0 代表非0元素的個數,1,2,3,4,5 非0個數...
機器學習中的L0,L1,L2講解
1.正則化概述 regularization 監督學習可以簡單的理解為在最小化loss function 的同時,保證模型的複雜度盡可能的低,防止出現過擬合 overfitting 常用的loss函式有square loss regression hinge loss svm exp loss ad...