最小二乘法模型的推導原理

2022-08-04 17:18:13 字數 2696 閱讀 6590

一、線性回歸

在統計學中,線性回歸(linear regression)是利用稱為線性回歸方程的最小平方函式對乙個或多個自變數和因變數之間關係進行建模的一種回歸分析。這種函式是乙個或多個稱為回歸係數的模型引數的線性組合。

回歸分析中,只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性回歸分析。

下面我們來舉例何為一元線性回歸分析,圖1為某地區的房屋面積(feet)與**($)的乙個資料集,在該資料集中,只有乙個自變數面積(feet),和乙個因變數**($),所以我們可以將資料集呈現在二維空間上,如圖2所示。利用該資料集,我們的目的是訓練乙個線性方程,無限逼近所有資料點,然後利用該方程與給定的某一自變數(本例中為面積),可以**因變數(本例中為房價)。本例中,訓練所得的線性方程如圖3所示。

圖1、房價與面積對應資料集

圖2、二維空間上的房價與面積對應圖

圖3、線性逼近

同時,分析得到的線性方程為:

接下來還是該案例,舉乙個多元線性回歸的例子。如果增添了乙個自變數:房間數,那麼資料集可以如下所示:

圖4、房價與面積、房間數對應資料集

那麼,分析得到的線性方程應如下所示:

因此,無論是一元線性方程還是多元線性方程,可統一寫成如下的格式:

上式中x0=1,而求線性方程則演變成了求方程的引數θt。

線性回歸假設特徵和結果滿足線性關係。其實線性關係的表達能力非常強大,每個特徵對結果的影響強弱可以有前面的引數體現,而且每個特徵變數可以首先對映到乙個函式,然後再參與線性計算,這樣就可以表達特徵與結果之間的非線性關係。

二、真實值、**值、誤差:

對誤差的深入理解:

[假設]:誤差 ε 是獨立同分布的,並且服從均值為0方差為θ^2的高斯分布,

誤差特點:

1.誤差指的是實際值與**值之間的差值

2.獨立:張三和李四一起來貸款,他倆沒關係。

3.同分布:張三和李四都是我們張三和李四都來的是我們假定的這家銀行來貸款 

4.高斯分布:銀行可能會多貸款,也可能少貸款,但是絕大多數情況下,這個貸款的差額的浮動不會太大(這裡所說的的多貸款,少貸款是銀行實際貸款和**貸款之間的差別)

下面展示高斯分布(正態分佈)的影象:

根據圖型對誤差的深入理解: 高斯分布的積分為1,所以可以把閉區間的面積看作概率,中間區域的面積最大,說明值落在中間的概率大,由圖可知,有大概率的點是落在x=0附近的,高斯分布的縱座標無實際意義,縱座標的值與方差θ的平方有關,θ越大,表示樣本的**幅度越大(不會密集的分布在0附近),那麼影象就越矮,縱座標越小。

三、似然函式

目的:計算出什麼樣的引數θ和我們的資料(x,y)組合之後,能滿足我們的真實值(根據資料來猜測結果)

形象理解:比如說我們擲硬幣,擲了十次,結果是九次正面朝上,一次反面朝上,那麼認為下一次正面朝上的概率θ就是90%; 

似然函式就是用結果(或樣本)(9正,1負的資料)來推算引數(weight權重、概率),也就是說通過引數θ得到的**的演算法,能夠盡可能地擬合樣本資料(已知結果),從而最大化的使得**結果更偏向於真實資料。 

似然函式說白了就是結果導向,由已知結果來推算出**引數θ,因為結果已經發生了,那麼概率p(y|x;θ)肯定是取最大的! 

這裡的似然函式是怎麼來的:

(1)式是已知的,(2)式我們假設的,那麼將(1)代入(2),就可以得到乙個新的關於引數θ的函式,這就是乙個似然函式。

注:前面的括號裡面的引數,經查閱資料,分號前面的表示已知量、確定值,分號後面的是自變數,所以似然函式就是乙個關於θ的函式,所以可以簡寫成l(θ)

但是似然函式的累乘的,乘法比較難算,我們可以引入對數,進行累加:

四、最小二乘法

根據上面的對數似然函式,我們可以進行化簡從而得到最小二乘法:

五、計算最小二乘法(得到引數取何值時候,真實值和**值越接近)

六:評估方法(對我們模擬的模型進行評估)

總結:以上就是通過線性回歸思想建立最小二乘法模型

最小二乘法 模型 普通最小二乘法的推導證明

在統計學中,普通最小二乘法 ordinary least squares,ols 是一種用於在線性回歸模型中估計未知引數的線性最小二乘法。ols通過最小二乘法原則選擇一組解釋變數的線性函式的引數 最小化給定資料集中觀察到的因變數 被 變數的值 與 變數之間殘差的平方和。我們先以一元線性模型為例來說明...

最小二乘法 模型 普通最小二乘法的推導證明

在統計學中,普通最小二乘法 ordinary least squares,ols 是一種用於在線性回歸模型中估計未知引數的線性最小二乘法。ols通過最小二乘法原則選擇一組解釋變數的線性函式的引數 最小化給定資料集中觀察到的因變數 被 變數的值 與 變數之間殘差的平方和。我們先以一元線性模型為例來說明...

最小二乘法 公式推導

求出這樣一些未知引數使得樣本點和擬合線的總誤差 距離 最小 最直觀的感受如下圖 圖引用自知乎某作者 而這個誤差 距離 可以直接相減,但是直接相減會有正有負,相互抵消了,所以就用差的平方 1 寫出擬合方程y a bx y a bx 2 現有樣本 x1 y1 x2 y2 xn,y n x1,y1 x2,...