L2 約束的最小二乘學習法

2022-04-09 13:46:12 字數 2774 閱讀 1707

\[\begin

j_ = \frac ^ \\

\min(j_) \quad \text\| \theta \|^2 < r\\

\end

\]假設 \(f(x)\), \(c_i(x)\), \(h_j(x)\) 是定義在 \(r^n\) 上的連續可微函式, 考慮約束最優化問題

\[\begin

\min_ f(x) \quad \quad \quad\quad\quad\quad\quad\quad\quad\quad\\

s.t. \space c_i(x) \le 0, \quad i=1,2,3, \cdots,k\quad\quad \\

\quad \quad h_j(x) = 0, \quad \quad \quad i=1,2,3, \cdots,l

\end

\]稱此最優化問題為原始最優化問題或原始問題

首先引入廣義拉格朗日函式

\[\begin

l(x, \alpha, \beta) = f(x) + \sum_i^k\alpha_i c_i(x) + \sum_j^l\beta_j h_j(x) \quad \alpha_i \ge 0

\end

\]由於, 若 \(c_i(x) \le 0, \quad h_j(x) = 0\), 則

\[\theta_p(x) = \max_l(x, \alpha, \beta) =f(x)

\]\(\color\)

\[\begin

\min_x \max_ l(x, \alpha, \beta) \quad\quad\quad\quad\quad\\

s.t. \space c_i(x) \le 0, \quad \quad\quad i=1,2,3, \cdots,k \\

\quad \quad h_j(x) = 0, \quad \quad \quad i=1,2,3, \cdots,l

\end

\]上述問題稱為廣義拉格朗日函式的極小極大問題. 該問題和原始最優化問題 \(\it 式(1), (2), (3)\) 等價

\[\begin

\max_ \min_x l(x, \alpha, \beta)

\end

\]上述問題稱為廣義拉格朗日函式的極大極小問題, 是廣義拉格朗日函式的極小極大問題的對偶問題

如果\(\alpha_i\), \(\beta_j\), \(x\) 滿足 \(karush-kuhn_tucker(kkt)\) 條件, 則

\[對偶問題的解 \longleftrightarrow lagrange極小極大問題解 \longleftrightarrow 原始問題解

\]\[\begin

&j_ = \frac ^\quad \\

&\min(j_) \quad \text\| \theta \|^2 < r\\

\end

\]該原始問題可以轉化對偶問題

\[\begin

\max_ \min_\theta \left[j_ + \frac\lambda2 \left(\| \theta \|^2 - r\right)\right] \quad 約束條件 \lambda \ge 0

\end

\]lagrange 對偶問題的 拉格朗日乘子 \(\lambda\) 的解由 \(r\) 決定. 如果不根據 \(r\) 來決定 \(r\), 而是直接指定的話, \(\space l_2\) 約束的最小二乘學習法的解 \(\hat\) 可以通過下式求得

\[\begin

\hat = \arg\min_ \left[ j_ + \frac\lambda2 \| \theta \|^2 \right]

\end

\]\(j_\) 表示的是訓練樣本的擬合程度, 與 \(\frac\lambda2 \| \theta \|^2\)結合求最小值, 來防止訓練樣本的過擬合. \(l_2\)正則化的最小二乘學習法也稱為嶺回歸.

\[\begin

\frac + \frac\lambda2 \| \theta \|^2})} = \phi^t(\phi \theta - y) + \theta = 0 \\

\hat = (\phi^t\phi + \lambda i)^\phi^ty

\end

\]考慮矩陣 \(\phi\) 的奇異值分解

\[\phi = u\sigma v^t = \sum_^ u_k\sigma_kv_k^t,\\

\phi^t\phi = v \sigma^2v^t = \sum_^ v_k\sigma_k^2v_k^t \\

\phi ^t = v\sigma u^t = \sum_^ v_k\sigma_ku_k^t\\

\]其中\(\quad \sigma\) 為對角矩陣

\(\space l_2\) 約束的最小二乘學習法的解 \(\hat\)如下式表示

\[\hat = \sum_^ \fracu_k^tyv_k

\]通過在分母中加入正常數 \(\lambda\) 使得 \(\frac\) 避免變得過大, 進而達到防治過擬合的目的.

q: 不清楚為什麼 \(\hat\) 變小了就能防治過擬合 ?

我是這樣理解的, 就拿房價的曲線擬合來說吧. 如果基函式 \(\phi(x)\) , 比如

\[(1, \sin, \cos, \cdots, sin15x/2, cos15x/2)

\]是給定的. 那麼, 減小係數向量 \(\hat\) 可以減小函式變化的幅度, 不會讓模型因為和訓練樣本過於相似, 而失去了泛化能力.

機器學習 最小二乘

大家可以隨意搜尋一下,相關的文章很多。長篇大論的不少,剛入門的朋友一看到那些公式可能就看不下去了。比如下面的解釋 毫無疑問,這樣的解釋是專業的,嚴謹的。事實上,這是深度學習聖經裡的解釋。我並沒有詆毀大師的意思,只是覺得用乙個具體的例子來說明,可能會讓讀者更加容易理解。小明是跑運輸的,跑1公里需要6塊...

最小二乘和加權最小二乘的原理與實現

已知有一組資料,在座標系中表示成一組點集n。現在的目標是估計出一條經過點集n的直線,要求直線滿足一定的準則。不同的準則最後定義不同的優化方法,這裡我們通過定義兩種不 同的準則,來引出最小二乘和加權最小二乘的介紹。首先回到直線擬合的這個問題中來。一般假設點集n中的點是通過對直線進行取樣獲得,通常 取樣...

從最小二乘學習推出SVM

最小 二乘和s vm都是 大家熟悉 的演算法,但是一般 講svm 或者最小 二乘時都 不會講到 它們之間 的聯絡,但實際上 svm是 可以從最 小二乘中 推導出來 的。關於最小二乘 為了 便於理解 後面的s vm,這 裡還是先 簡單說一 下最小二 乘學習法 以最容 易的 2 約束的最 小二乘學 習法...