最小二乘法 模型 普通最小二乘法的推導證明

2021-10-16 03:35:13 字數 1820 閱讀 3102

在統計學中,普通最小二乘法(ordinary least squares,ols)是一種用於在線性回歸模型中估計未知引數的線性最小二乘法。 ols通過最小二乘法原則選擇一組解釋變數的線性函式的引數:最小化給定資料集中觀察到的因變數(被**變數的值)與**變數之間殘差的平方和。

我們先以一元線性模型為例來說明。

假設有一組資料

既然要擬合,總要有乙個擬合程度高低的判斷標準,上文說到,最小二乘法中使用的就是誤差平方和方法,所以,這時候損失函式,或者說我們的目標函式就是:

有了這個目標函式,我們要做的就是求出和使得

最小,在這裡就是極小值。

求極值的乙個很好的方法就是求導,在這裡因為有多個引數,所以,我們要分別對

和求偏導:

因為,, 所以,上面第二個,也就是對

的偏導可以轉化為:

我們知道,目標函式取得極值時,偏導一定是等於0的,所以,我們令

等於0,於是有:

接著,我們繼續回到上面第乙個偏導,也就是對

的偏導,令

,並將代入,得:

根據求和性質可得:

求和性質:

分子得證

分母得證
的普通最小二乘解為:

對於多元的情況,需要使用矩陣運算來求解,先用矩陣表示:

其中,目標函式:

如果要使上述目標函式最小,顯然其結果為0,即:

也就是說:

最終獲得解:

可以看出,對於一般的最小二乘法多元求解,使用矩陣運算即可,都不需要迭代 。

此處不做證明,具體可參考《應用概率統計》 張國權著 第九章 回歸分析
通過上面推導可知,最小二乘法可以矩陣運算求解,這種方法十分方便快捷,但這種方法不是萬能的,因為線性最小二乘的解是closed-form即

,而非線性最小二乘沒有closed-form(即

沒有可逆矩陣),這時候矩陣運算求解就行不通,這時候就可以通過迭代法(梯度下降法)求最優解。

來具體說說這兩種方法的區別:

最小二乘法梯度下降法不需要設定學習率需要設定學習率一次運算得出最優解需要多次迭代求解最優解矩陣求逆得複雜度時

,所以資料維度越大,效率越低,甚至不可接受維度較大時也適用只適用於線性模型適用性高,各種模型都可以使用

迭代法,即在每一步update未知量逐漸逼近解,可以用於各種各樣的問題(包括最小二乘),比如求的不是誤差的最小平方和而是最小立方和。

梯度下降是迭代法的一種,可以用於求解最小二乘問題(線性和非線性都可以)。高斯-牛頓法是另一種經常用於求解非線性最小二乘的迭代法(一定程度上可視為標準非線性最小二乘求解方法)。

還有一種叫做levenberg-marquardt的迭代法用於求解非線性最小二乘問題,就結合了梯度下降和高斯-牛頓法。

所以如果把最小二乘看做是優化問題的話,那麼梯度下降是求解方法的一種,

是求解線性最小二乘的一種,高斯-牛頓法和levenberg-marquardt則能用於求解非線性最小二乘。

萊文貝格-馬夸特方法(levenberg–marquardt algorithm)能提供數非線性最小化(區域性最小)的數值解。此演算法能借由執行時修改引數達到結合高斯-牛頓演算法以及梯度下降法的優點,並對兩者之不足作改善(比如高斯-牛頓演算法之反矩陣不存在或是初始值離區域性極小值太遠)
然後levenberg-marquardt方法的好處就是在於可以調節:

如果下降太快,使用較小的λ,使之更接近高斯牛頓法

如果下降太慢,使用較大的λ,使之更接近梯度下降法

最小二乘法 模型 普通最小二乘法的推導證明

在統計學中,普通最小二乘法 ordinary least squares,ols 是一種用於在線性回歸模型中估計未知引數的線性最小二乘法。ols通過最小二乘法原則選擇一組解釋變數的線性函式的引數 最小化給定資料集中觀察到的因變數 被 變數的值 與 變數之間殘差的平方和。我們先以一元線性模型為例來說明...

普通最小二乘法

print doc 輸出檔案開頭注釋的內容 import matplotlib.pyplot as plt import numpy as np from sklearn import datasets,linear model from sklearn.metrics import mean sq...

普通最小二乘法 加權最小二乘法 廣義最小二乘法

所謂回歸分析實際上就是根據統計資料建立乙個方程,用這個方程來描述不同變數之間的關係,而這個關係又無法做到想像函式關係那樣準確,因為即使你重複全部控制條件,結果也還有區別,這時通過讓回歸方程計算值和試驗點結果間差值的平方和最小來建立 回歸方程的辦法就是最小二乘法,二乘的意思就是平方。最小二乘就是指回歸...