線性回歸(linear regression)是利用被陳偉線性回歸方程的最小平方函式對乙個或多個自變數和應變數之間關係進行建模的一種回歸分析。這種函式是乙個或多個稱為回歸係數的模型引數的線性組合。只有乙個自變數的情況稱為一元回歸,大於乙個自變數情況的叫做多元回歸。
以下就以一元線性回歸為例,簡要說明何為回歸:
如下表1為隨機生成的車輛行駛距離(m)與其預計行駛時間(s)的乙個資料集(部分)。該資料集中,只有乙個自變數——行駛距離和乙個因變數——預計行駛時間。因此我們可以將其在二維座標系中標記出來,如圖1所示。利用該資料集,我們的目的是訓練出乙個線性方程,使得其能無限逼近所有資料。在本例中,訓練所得的線性方程繪圖後影象如圖2所示。
表1 行駛距離與預計行駛時間對應的資料集
車輛行駛距離(m)
車輛預計行駛時間(s)
圖1 車輛行駛距離與預計行駛時間對應關係圖
圖2 線性逼近圖示
同時,我們可得線性方程如下: h0
(x)=
θ0+θ
1⋅x1
多元線性回歸:
針對多元線性回歸,如果在上述例子中新增乙個自變數:沿途經過路口數,那麼資料集將如表2所示。
表2 距離、時間與路口數對應關係資料集
行駛距離(m)
經過路口數(個)
預計行駛時間(s)
1000258
那麼,所得到的線性方程應如下所示: h0
(x)=
θ0+θ
1⋅x1
+θ2⋅
x2因此,無論是一元還是多元線性方程,都可以寫成如下格式的方程: h0
(x)=
∑i=0
nθix
i=θt
x 其中x
0=1 ,而求線性方程就變成了求引數θt
損失函式:
對於引數
θ 的求解,在這裡我們引進了損失函式(loss function)j(
θ),用來描述上式中
h 函式不好的程度: j(
θ)=1
2∑i=
1m[h
θ(x(
i))−
y(i)
]2mi
nθjθ
其中係數12
是為了求導方便而增設的引數。而如何調整
θ 使得j(
θ)取到最小值常用的方法主要是最小二乘法,也可用梯度下降演算法。
最小二乘法與梯度下降演算法:
初級演算法學習小組 任務1 線性回歸演算法梳理
監督學習研究的是屬性x和輸出值y之間的關係。無監督研究的是屬性和屬性之間的關係,這時候沒有輸出值或者標籤值y。我們學得的模型,它作用於新樣本的表現能力,稱為泛化能力。模型對訓練集適配得很好,模擬得很好,在測試集上卻表現很差,叫作過擬合。這時候方差會比較大。過擬合是無法完全避免的,只能盡可能去減少過擬...
回歸演算法 學習筆記 幾種常見的回歸演算法
1 簡單線性回歸 2 lwlr 區域性加權線性回歸 3 帶正則的線性回歸 ridge lasso 總結回歸演算法和分類演算法都屬於監督學習演算法,不同的使,分類演算法中的標籤使一些離散值,而回歸演算法中的標籤是一些連續值。回歸演算法通過訓練得到樣本特徵到這些標籤之間的對映,再用於 數值型資料。常用於...
回歸學習 線性回歸
匯入資料 from sklearn.datasets import load boston boston load boston print boston.descr 資料分割 from sklearn.cross validation import train test split import ...