本部落格只記錄基本知識,不涉及模型的推導。詳細過程請參考文末 reference假設模型的輸入資料為 \(d\) 維向量 \(\vec\),輸出 \(y\) 為連續型。回歸模型等價於尋找乙個函式\(f\),建立\(\vec\)到\(y\)的對映關係\(y=f(x)\)輸入特徵是非隨機的且互不相關
隨機誤差具有零均值、同方差的特點,且彼此不相關
輸入特徵與隨機誤差不相關
隨機誤差項服從正態分佈 \(n(0,\sigma^2)\)
模型:\(y=w_1x+w_0\),使用最小化殘差平方和 \(\min rss(w_1,w_0)\) 求解(ols),最優解為
\[\hat_1=\frac^nx_i^2-n\bar\bar}
^nx_i^2-n(\bar)^2},\quad
\hat=\bar-\hat_1\bar
\]模型:\(y=\boldsymbol^t\boldsymbol\),輸出\(\hat}=\boldsymbol\boldsymbol\),殘差平方和\(rss(\boldsymbol)=||\boldsymbol-\boldsymbol\boldsymbol||_2^2\),最優解\(\hat}=(\boldsymbol^t\boldsymbol)^\boldsymbol^t\boldsymbol\)
本質就是 l2 正則和 l1 正則。
利用拉格朗日乘子法,約束優化問題等價於無約束懲罰函式優化問題。正則化的本質是偏差(bias)和方差(variance)的平衡。
lasso 求解方法
座標下降法(coordinate descent),lars 演算法,基於近似的梯度方法(proximal gradient)的 ista(iterative shrinkage-thresholding algorithm)和 fista。ista 演算法如下:
最小化乙個光滑函式\(f(\boldsymbol)\),梯度下降法基於當前變數值\(\boldsymbol^\)迭代:\(\boldsymbol^=\boldsymbol^-\eta\nabla f(\boldsymbol^)\),\(\eta\)是學習率
梯度下降的近似形式:\(\boldsymbol^=\arg\min\limits_\boldsymbol f(\boldsymbol^)+\nabla f(\boldsymbol^)^t(\boldsymbol-\boldsymbol^)+\frac1||\boldsymbol-\boldsymbol^||_2^2\)
如果最小化\(f+g\),則
\[\begin
\boldsymbol^=&\arg\min\limits_\boldsymbol f(\boldsymbol^)+\nabla f(\boldsymbol^)^t(\boldsymbol-\boldsymbol^)+\frac1||\boldsymbol-\boldsymbol^||_2^2+g(\boldsymbol)\\
=&\arg\min\limits_}g(\boldsymbol)+\frac1||\boldsymbol-(\boldsymbol^-\eta\nabla f(\boldsymbol^))||_2^2
\end
\]lasso 的目標函式\(f(\boldsymbol)=\frac12||\boldsymbol-\boldsymbol\boldsymbol||_2^2\),\(g(\boldsymbol)=\lambda||\boldsymbol||_1\),\(f\)的梯度\(\nabla f(\boldsymbol)=\boldsymbol^t(\boldsymbol\boldsymbol-\boldsymbol)\)故迭代公式為
\[\boldsymbol^=\arg\min\limits_\boldsymbol\lambda||\boldsymbol||_1+\frac1||\boldsymbol-(\boldsymbol^-\eta\nabla f(\boldsymbol^))||_2^2\\
\boldsymbol^=s_(\boldsymbol^-\eta\nabla f(\boldsymbol^))\\
\]其中\(s_(\boldsymbol)\)代表軟閾值操作(soft thresholding operator),
\[(s_a(\boldsymbol))_i=\left\lbrace
\begin
&v_i-a, && if\quad v_i>a&\\
&0, && if\quad |v_i|\le a&\\
&v_i+a, && if\quad v_i
\end
\right.
\]為社麼 lasso 可以產生稀疏解
從優化理論可知,最優解發生在目標函式的等高線和可行區域的交集處。角比邊更容易和等高線相交,在高維情況下尤其明顯,因為高維的角更加凸出。而\(l_2\)球可能相交於任意點,所以不容易產生稀疏解。
正則化路徑分析
正則化路徑是指回歸係數的估計值\(\hat}\)隨著正則化係數增大而變化的曲線,可以分析特徵之間相關性和進行特徵選擇。
嶺回歸的正則化路徑被稱為嶺跡。嶺跡波動很大說明該特徵與其他特徵有相關性。標準化的特徵可以直接比較回歸係數的大小,回歸係數比較穩定且絕對值很小的特徵可以去除。回歸係數不穩定且震動趨於零的特徵也可以去除。
lasso 回歸當\(\lambda\)很大時所有特徵的係數都被壓縮到 0,但係數減小是逐個進行的,可以通過控制\(\lambda\)選擇特徵個數。
彈性網路(elastic net)正則化:\(j(\boldsymbol)=||\boldsymbol-\boldsymbol\boldsymbol||_2^2+\lambda_1||\boldsymbol||_1+\lambda_2||\boldsymbol||_2^2\),具有特徵分組的效果:高度相關的特徵係數趨於相等(負相關的特徵有符號)
group lasso:事先確定\(g\)組\(\boldsymbol=(\boldsymbol_1,\boldsymbol_2,\cdots,\boldsymbol_g)\),目標函式\(j)\boldsymbol)=||\boldsymbol-\boldsymbol\boldsymbol||_2^2+\sum\limits_^\lambda_g||\boldsymbol_g||_2^2\)
《資料科學導引》,歐高炎、朱占星、董彬、鄂維南,高等教育出版社
《機器學習》,周志華,清華大學出版社
machine learning. andrew ng. coursera
機器學習 線性回歸
可以說基本上是機器學習中最簡單的模型了,但是實際上其地位很重要 計算簡單 效果不錯,在很多其他演算法中也可以看到用lr作為一部分 先來看乙個小例子,給乙個 線性回歸是什麼 的概念。圖來自 2 假設有乙個房屋銷售的資料如下 面積 m 2 銷售價錢 萬元 123 250 150 320 87 160 1...
機器學習(線性回歸)
在機器學習中,回歸 分類和標註共同構成了監督學習技術。監督學習 supervised learning 是機器學習在工業界應用最廣的乙個領域分支。在學術界中也是研究最多的領域之一。大家都知道的資料探勘十大經典演算法中,監督學習技術佔據6席。方法 自變數 特徵 因變數 結果 關係 回歸演算法是試圖採用...
機器學習 線性回歸
line fitter linearregression 建立模型 line fitter.fit temperature,sales 傳入引數 sales predict line fitter.predict temperature 模型 直線 直線上會有loss 計算loss時 要使用平方距離...