\[\begin
j_ = \frac ^ \\
\min(j_) \quad \text\| \theta \|^2 < r\\
\end
\]假設 \(f(x)\), \(c_i(x)\), \(h_j(x)\) 是定義在 \(r^n\) 上的連續可微函式, 考慮約束最優化問題
\[\begin
\min_ f(x) \quad \quad \quad\quad\quad\quad\quad\quad\quad\quad\\
s.t. \space c_i(x) \le 0, \quad i=1,2,3, \cdots,k\quad\quad \\
\quad \quad h_j(x) = 0, \quad \quad \quad i=1,2,3, \cdots,l
\end
\]稱此最優化問題為原始最優化問題或原始問題
首先引入廣義拉格朗日函式
\[\begin
l(x, \alpha, \beta) = f(x) + \sum_i^k\alpha_i c_i(x) + \sum_j^l\beta_j h_j(x) \quad \alpha_i \ge 0
\end
\]由於, 若 \(c_i(x) \le 0, \quad h_j(x) = 0\), 則
\[\theta_p(x) = \max_l(x, \alpha, \beta) =f(x)
\]\(\color\)
\[\begin
\min_x \max_ l(x, \alpha, \beta) \quad\quad\quad\quad\quad\\
s.t. \space c_i(x) \le 0, \quad \quad\quad i=1,2,3, \cdots,k \\
\quad \quad h_j(x) = 0, \quad \quad \quad i=1,2,3, \cdots,l
\end
\]上述問題稱為廣義拉格朗日函式的極小極大問題. 該問題和原始最優化問題 \(\it 式(1), (2), (3)\) 等價
\[\begin
\max_ \min_x l(x, \alpha, \beta)
\end
\]上述問題稱為廣義拉格朗日函式的極大極小問題, 是廣義拉格朗日函式的極小極大問題的對偶問題
如果\(\alpha_i\), \(\beta_j\), \(x\) 滿足 \(karush-kuhn_tucker(kkt)\) 條件, 則
\[對偶問題的解 \longleftrightarrow lagrange極小極大問題解 \longleftrightarrow 原始問題解
\]\[\begin
&j_ = \frac ^\quad \\
&\min(j_) \quad \text\| \theta \|^2 < r\\
\end
\]該原始問題可以轉化對偶問題
\[\begin
\max_ \min_\theta \left[j_ + \frac\lambda2 \left(\| \theta \|^2 - r\right)\right] \quad 約束條件 \lambda \ge 0
\end
\]lagrange 對偶問題的 拉格朗日乘子 \(\lambda\) 的解由 \(r\) 決定. 如果不根據 \(r\) 來決定 \(r\), 而是直接指定的話, \(\space l_2\) 約束的最小二乘學習法的解 \(\hat\) 可以通過下式求得
\[\begin
\hat = \arg\min_ \left[ j_ + \frac\lambda2 \| \theta \|^2 \right]
\end
\]\(j_\) 表示的是訓練樣本的擬合程度, 與 \(\frac\lambda2 \| \theta \|^2\)結合求最小值, 來防止訓練樣本的過擬合. \(l_2\)正則化的最小二乘學習法也稱為嶺回歸
.
\[\begin
\frac + \frac\lambda2 \| \theta \|^2})} = \phi^t(\phi \theta - y) + \theta = 0 \\
\hat = (\phi^t\phi + \lambda i)^\phi^ty
\end
\]考慮矩陣 \(\phi\) 的奇異值分解
\[\phi = u\sigma v^t = \sum_^ u_k\sigma_kv_k^t,\\
\phi^t\phi = v \sigma^2v^t = \sum_^ v_k\sigma_k^2v_k^t \\
\phi ^t = v\sigma u^t = \sum_^ v_k\sigma_ku_k^t\\
\]其中\(\quad \sigma\) 為對角矩陣
\(\space l_2\) 約束的最小二乘學習法的解 \(\hat\)如下式表示
\[\hat = \sum_^ \fracu_k^tyv_k
\]通過在分母中加入正常數 \(\lambda\) 使得 \(\frac\) 避免變得過大, 進而達到防治過擬合的目的.
q: 不清楚為什麼 \(\hat\) 變小了就能防治過擬合 ?
我是這樣理解的, 就拿房價的曲線擬合來說吧. 如果基函式 \(\phi(x)\) , 比如
\[(1, \sin, \cos, \cdots, sin15x/2, cos15x/2)
\]是給定的. 那麼, 減小係數向量 \(\hat\) 可以減小函式變化的幅度, 不會讓模型因為和訓練樣本過於相似, 而失去了泛化能力.
機器學習 最小二乘
大家可以隨意搜尋一下,相關的文章很多。長篇大論的不少,剛入門的朋友一看到那些公式可能就看不下去了。比如下面的解釋 毫無疑問,這樣的解釋是專業的,嚴謹的。事實上,這是深度學習聖經裡的解釋。我並沒有詆毀大師的意思,只是覺得用乙個具體的例子來說明,可能會讓讀者更加容易理解。小明是跑運輸的,跑1公里需要6塊...
最小二乘和加權最小二乘的原理與實現
已知有一組資料,在座標系中表示成一組點集n。現在的目標是估計出一條經過點集n的直線,要求直線滿足一定的準則。不同的準則最後定義不同的優化方法,這裡我們通過定義兩種不 同的準則,來引出最小二乘和加權最小二乘的介紹。首先回到直線擬合的這個問題中來。一般假設點集n中的點是通過對直線進行取樣獲得,通常 取樣...
從最小二乘學習推出SVM
最小 二乘和s vm都是 大家熟悉 的演算法,但是一般 講svm 或者最小 二乘時都 不會講到 它們之間 的聯絡,但實際上 svm是 可以從最 小二乘中 推導出來 的。關於最小二乘 為了 便於理解 後面的s vm,這 裡還是先 簡單說一 下最小二 乘學習法 以最容 易的 2 約束的最 小二乘學 習法...