線性回歸之最小二乘法簡要解析

2021-07-09 01:35:04 字數 2365 閱讀 5798

最小二乘法(又稱最小平方法)是一種數學

優化技術。它通過最小化

誤差的平方和尋找資料的最佳函式匹配。利用

最小二乘法

可以簡便地求得未知的資料,並使得這些求得的資料與實際資料之間誤差的平方和為最小。

最小二乘法

還可用於

曲線擬合

。其他一些優化問題也可通過最小化

能量或最大化

熵用最小二乘法來表達。

最小二乘法也是一種優化方法,求得目標函式的最優值。並且也可以用於曲線擬合,來解決回歸問題。難怪《統計學習方法》中提到,回歸學習最常用的損失函式是平方損失函式,在此情況下,回歸問題可以著名的最小二乘法來解決。看來最小二乘法果然是機器學習領域做有名和有效的演算法之一。

最小二乘法

我們以最簡單的一元線性模型來解釋最小二乘法。什麼是一元線性模型呢? 監督學習中,如果**的變數是離散的,我們稱其為分類(如決策樹,支援向量機等),如果

**的變數是連續的,我們稱其為回歸。回歸分析中,如果只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性回歸分析。對於二維空間線性是一條直線;對於三維空間線性是乙個平面,對於多維空間線性是乙個超平面

...

對於一元線性回歸模型

,假設從總體中獲取了

n組觀察值(x1,

y1),(x2,

y2),…,(xn,

yn)。對於平面中的這

n個點,可以使用無數條曲線來擬合。要求樣本回歸函式盡可能好地擬合這組值。綜合起來看,這條直線處於樣本資料的中心位置最合理。選擇最佳擬合曲線的標準可以確定為:使總的擬合誤差(即總殘差)達到最小。有以下三個標準可以選擇: (

1)用「殘差和最小」確定直線位置是乙個途徑。但很快發現計算「殘差和」存在相互抵消的問題。(2

)用「殘差絕對值和最小」確定直線位置也是乙個途徑。但絕對值的計算比較麻煩.(3

)最小二乘法的原則是以「殘差平方和最小」確定直線位置。用最小二乘法除了計算比較方便外,得到的估計量還具有優良特性。這種方法對異常值非常敏感。

最常用的是普通最小二乘法(

ordinary least square

,ols

):所選擇的回歸模型應該使所有觀察值的殘差平方和達到最小。(

q為殘差平方和)

-即採用平方損失函式。

樣本回歸模型:

為樣本(

xi, yi

)的誤差

平方損失函式:

則通過q

最小確定這條直線,即確定

q的函式,就變成了乙個求極值的問題,可以通過求導數得到。求

q對兩個待估引數的偏導數:

根據數學知識我們知道,函式的極值點為偏導為

0的點。

解得:

這就是最小二乘法的解法,就是求得平方損失函式的極值點。

/*

最小二乘法c++實現

引數1為輸入檔案

輸入 : x

輸出: **的y

*/#include#include#includeusing namespace std;

class leastsquare{

double a, b;

public:

leastsquare(const vector& x, const vector& y)

{double t1=0, t2=0, t3=0, t4=0;

for(int i=0; ix;

ifstream in(argv[1]);

for(double d; in>>d; )

x.push_back(d);

int sz = x.size();

vectory(x.begin()+sz/2, x.end());

x.resize(sz/2);

leastsquare ls(x, y);

ls.print();

cout<

double x0;

while(cin>>x0)

{cout<

線性回歸之最小二乘法

線性回歸是很常見的一種回歸,線性回歸可以用來 或者分類,主要解決線性問題。線性回歸過程主要解決的就是如何通過樣本來獲取最佳的擬合線。最常用的方法便是最小二乘法,它是一種數學優化技術,它通過最小化誤差的平方和尋找資料的最佳函式匹配。假設擬合直線為y ax b 對任意樣本點 x i,yi 誤差為e yi...

線性回歸,最小二乘法

回歸的定義 對於乙個點集,使用乙個函式去擬合該點集,使點集與擬合函式間的誤差最小,如果這個函式曲線是一條直線,則是線性回歸,如果曲線是二次曲線,則是二次回歸。廣義線性回歸 廣義線性模型是線性模型的擴充套件,其特點是不強行改變資料的自然度量,資料可以具有非線性和非恆定方差結構 59 主要是通過聯結函式...

線性回歸 最小二乘法(二)

上篇文章中介紹了單變數線性回歸,為什麼說時單變數呢,因為它只有單個特徵,其實在很多場景中只有單各特徵時遠遠不夠的,當存在多個特徵時,我們再使用之前的方法來求特徵係數時是非常麻煩的,需要乙個特徵係數乙個偏導式,而卻最要命的時特性的增長時及其迅猛的,幾 十 幾百 幾千 單變數線性回歸 多變數線性回歸 所...