在回歸分析中最小二乘法是最常用的方法,使用最小二乘法的乙個前提是|x'x|不為零,即矩陣x'x非奇異,當所有變數之間有較強的線性相關性時,或者變數之間的資料變化比較小或者部分變數之間有線性相關性時,矩陣x'x的行列式比較小,甚至趨近於0,一般在實際應用中處理:當<0.01時常被稱為病態矩陣,它表明最小二乘法並非在各方面都盡善盡美,因為這種矩陣在計算過程中極易造成約數誤差,因此得到的資料往往缺乏穩定性和可靠性。
嶺回歸是在自變數資訊矩陣的主對角線元素上人為地加入乙個非負因子,從而使回歸係數的估計稍有偏差、而估計的穩定性卻可能明顯提高的一種回歸分析方法,它是最小二乘法的一種補充,嶺回歸可以修復病態矩陣,達到較好的效果。
線性回歸分析的正規方程組可以寫成:
x'xb = x'y (1)
其最小平方解則為:
b = (x'x)-1x'y (2)
式(1)和(2)中的為自變數的n x m階矩陣,x'為x的轉置,(x'x)為對稱的m x m方陣,通常稱為資訊矩陣(協方差矩陣),(x'x)-1為(x'x)的逆陣,y為因變數的nx1向量,b為待解元,即回歸係數的mx1向量,這裡的n為觀察值組數,m為待估計的回歸係數個數。當|x'x|約等於0時,矩陣x'x為病態矩陣,這樣最小偏二乘法就會產生較大的誤差,b^是b的無偏估計,但很不穩定,在具體取值上與真值有較大的偏差,甚至有時會出現與實際經濟意義不符的正負號。
如果我們在的主對角線元素上加上乙個非負因子,即令:
b(k)= (x'x + kim) -1x'y (3)
(im為單位矩陣),那麼b(k)和b有何不同呢(下文在這些統計數後均加標記(k),便於與最小二乘法,即k=0的統計數相區別)?最先研究這一問題的是hoerl和kennard以及marquardt[5],他們的基本結論是:b(k)是k的非線性函式;k=0時,b(k)=b同為最小平方估計數;而後,隨著k的增大,b(k)中各元素bi(k)的絕對值均趨於不斷變小(由於自變數間的相關,個別bi(k)可能有小範圍的向上波動或改變正、負號),它們對bi的偏差也將愈來愈大;如果k->∞,則b(k)->0。b(k)隨k的改變而變化的軌跡,就稱為嶺跡,參見圖1,嶺跡圖表明,的加入使成為回歸係數的有偏估計數。
總結:嶺回歸也是用於處理自變數之間高度相關的情形。只是跟主成分回歸的具體估計方法不同。線性回歸的計算用的是最小二乘估計法,當自變數之間高度相關時,最小二乘回歸估計的引數估計值會不穩定,這時如果在公式裡加點東西,讓它變得穩定,那就解決了這一問題了。嶺回歸就是這個思想,把最小二乘估計裡加個k,改變它的估計值,使估計結果變穩定。至於k應該多大呢?可以根據嶺跡圖來判斷,估計這就是嶺回歸名稱的由來。你可以選非常多的k值,可以做出乙個嶺跡圖,看看這個圖在取哪個值的時候變穩定了,那就確定k值了,然後整個引數估計不穩定的問題就解決了。
********************=
帶二範數懲罰的最小二乘回歸
********************=
是的,嶺回歸就是乙個帶二範數懲罰的最小二乘回歸,和帶一範數懲罰的最小二乘回歸lasso有的一拼啊
從統計學的角度看線性回歸
線性回歸是機器學習中常用的一種監督學習方法。常被用於選擇重要特徵和構造基學習器。本文將用統計學中極大似然估計和貝葉斯統計的方法推導線性回歸及正則化。極大似然估計的核心思想是找出一組引數值,使得在該引數值下,訓練樣本被觀察到的概率最大。在以下推導中,w 為回歸係數,w w0,w1,w m 1 t t ...
已知兩個點求所在象限並且角度
public void getangle vector3 a,vector3 b else if b.x 0 b.y 0 目標點在自身點右上 else if angle 45 else if b.x 0 b.y 0 目標點在自身點右 else if b.x 0 b.y 0 目標點在自身點右下 els...
兩個明星 兩名水貨 兩個英超解說
兩個明星 兩名水貨 兩個英超解說 來自 撓頭蛇的blog 2006 03 30 08 54 42 大中小1 在這場算不上非常精彩的冠軍盃八強戰中,非常精彩的是兩名阿根廷人的表現。乙個是黃色的里克爾梅,他的護球簡直令人絕望 另乙個是藍黑的薩內蒂,他的狂飆突進幾乎讓人忘記了現代足球的陣型這個概念。看了里...