機器學習經典演算法之 最小二乘法

2021-08-09 09:32:15 字數 2577 閱讀 9436

一.背景

通過這段描述可以看出來,最小二乘法也是一種優化方法,求得目標函式的最優值。並且也可以用於曲線擬合,來解決回歸問題。難怪《統計學習方法》中提到,回歸學習最常用的損失函式是平方損失函式,在此情況下,回歸問題可以著名的最小二乘法來解決。看來最小二乘法果然是機器學習領域做有名和有效的演算法之一。

二. 最小二乘法

我們以最簡單的一元線性模型來解釋最小二乘法。什麼是一元線性模型呢? 監督學習中,如果**的變數是離散的,我們稱其為分類(如決策樹,支援向量機等),如果**的變數是連續的,我們稱其為回歸。回歸分析中,如果只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性回歸分析。對於二維空間線性是一條直線;對於三維空間線性是乙個平面,對於多維空間線性是乙個超平面...

對於一元線性回歸模型, 假設從總體中獲取了n組觀察值(x1,y1),(x2,y2), …,(xn,yn)。對於平面中的這n個點,可以使用無數條曲線來擬合。要求樣本回歸函式盡可能好地擬合這組值。綜合起來看,這條直線處於樣本資料的中心位置最合理。 選擇最佳擬合曲線的標準可以確定為:使總的擬合誤差(即總殘差)達到最小。有以下三個標準可以選擇:

(1)用「殘差和最小」確定直線位置是乙個途徑。但很快發現計算「殘差和」存在相互抵消的問題。

(2)用「殘差絕對值和最小」確定直線位置也是乙個途徑。但絕對值的計算比較麻煩。

(3)最小二乘法的原則是以「殘差平方和最小」確定直線位置。用最小二乘法除了計算比較方便外,得到的估計量還具有優良特性。這種方法對異常值非常敏感。

最常用的是普通最小二乘法( ordinary  least square,ols):所選擇的回歸模型應該使所有觀察值的殘差平方和達到最小。(q為殘差平方和)- 即採用平方損失函式。

樣本回歸模型:

平方損失函式:

則通過q最小確定這條直線,即確定

根據數學知識我們知道,函式的極值點為偏導為0的點。

解得:

這就是最小二乘法的解法,就是求得平方損失函式的極值點。

三. c++實現**

1/*2

最小二乘法c++實現

3引數1為輸入檔案

4輸入 : x

5輸出: **的y 6*/

7 #include8 #include9 #include10

using

namespace

std;

1112

class

leastsquare

25 a = (t3*x.size() - t2*t4) / (t1*x.size() - t2*t2); //

求得β1

26 b = (t1*t4 - t2*t3) / (t1*x.size() - t2*t2); //

求得β227}

2829

double gety(const

double x) const

3033

34void print() const

3538

39};

4041

int main(int argc, char *argv)

4248

else

4967

}68 }

四. 最小二乘法與梯度下降法最小二乘法跟梯度下降法都是通過求導來求損失函式的最小值,那它們有什麼區別呢。 相同

1.本質相同:兩種方法都是在給定已知資料(independent & dependent variables)的前提下對dependent variables算出出乙個一般性的估值函式。然後對給定新資料的dependent variables進行估算。

2.目標相同:都是在已知資料的框架內,使得估算值與實際值的總平方差盡量更小(事實上未必一定要使用平方),估算值與實際值的總平方差的公式為:

其中為第i組資料的independent variable,為第i組資料的dependent variable,為係數向量。 不同

1.實現方法和結果不同:最小二乘法是直接對求導找出全域性最小,是非迭代法。而梯度下降法是一種迭代法,先給定乙個,然後向下降最快的方向調整,在若干次迭代之後找到區域性最小。梯度下降法的缺點是到最小點的時候收斂速度變慢,並且對初始點的選擇極為敏感,其改進大多是在這兩方面下功夫。

參考: 

9

機器學習經典演算法之 最小二乘法

一.背景 通過這段描述可以看出來,最小二乘法也是一種優化方法,求得目標函式的最優值。並且也可以用於曲線擬合,來解決回歸問題。難怪 統計學習方法 中提到,回歸學習最常用的損失函式是平方損失函式,在此情況下,回歸問題可以著名的最小二乘法來解決。看來最小二乘法果然是機器學習領域做有名和有效的演算法之一。二...

機器學習系列之最小二乘法

最小二乘法,又稱最小平方法,是機器學習中基礎的演算法之一,它是一種優化演算法,通過最小化誤差的平方來尋找資料的最佳函式匹配。利用最小二乘法可以簡便地求得未知的資料,並使得這些求得的資料與實際資料之間誤差的平方和為最小。在機器學習中,還可以使用最小二乘法來進行曲線擬合。上圖介紹的上海市長寧區部分房價的...

線性回歸之最小二乘法

線性回歸是很常見的一種回歸,線性回歸可以用來 或者分類,主要解決線性問題。線性回歸過程主要解決的就是如何通過樣本來獲取最佳的擬合線。最常用的方法便是最小二乘法,它是一種數學優化技術,它通過最小化誤差的平方和尋找資料的最佳函式匹配。假設擬合直線為y ax b 對任意樣本點 x i,yi 誤差為e yi...