線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。
其表達形式為y = ax+b,a為誤差服從均值為0的正態分佈。
一元線性回歸分析:只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示。
多元線性回歸分析:如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係。
線性回歸假設特徵和結果滿足線性關係。通過乙個對映函式將特徵變數與**結果形成關係。這樣就可以表達特徵與結果之間的非線性關係。這樣可以寫出乙個估計函式:
其中θ為權重引數,具體含義為所點成的特徵變數在整個變數中所佔的比重,比重越大,該特徵的影響力越大,在實際應用中越值得考慮。
在簡單線回歸問題中,模型就是我們的直線方程:y = ax + b 。
要想最大的擬合資料,本質上就是找到沒有擬合的部分,也就是損失的部分盡量小。損失函式(loss function)定義為:
因此我們目標是:已知訓練資料樣本x、y ,找到a和b的值,使損失函式盡可能小,從而得出最佳的擬合方程。
通過分析問題,確定問題的損失函式或者效用函式;通過最優化損失函式或者效用函式,獲得機器學習模型。
在很多機器學習的模型中,都是這種原理,比如線性回歸、多項式回歸、邏輯回歸、svm、神經網路等。
找到a和b,使得損失函式盡可能小,也就是最小化誤差的平方,是乙個典型的最小二乘法問題。
最小二乘法(二乘又叫平方),使「離差平方和為最小」的方法叫最小二乘法。
通過求a和b的偏導,使得偏導為零,能夠先求出b,再求出a,最終我們通過最小二乘法得到a、b的表示式:
在回歸分析中,如果有兩個或兩個以上的自變數,就稱為多元回歸。
多元線性回歸與一元線性回歸類似,可以用最小二乘法估計模型引數,也需對模型及模型引數進行統計檢驗。
選擇合適的自變數是正確進行多元回歸**的前提之一,多元回歸模型自變數的選擇可以利用變數之間的相關矩陣來解決。
假設多元線性回歸模型為:
用最小二乘法求解引數。以二線性回歸模型為例,求解回歸引數的標準方程組為:
解此方程可求得b0,b1,b2的數值。亦可用下列矩陣法求得:
即:
為了找到a和b使得損失函式盡可能小,我們使用了最小二乘法和向量化的方法。
的大小,是衡量的標準。
這個均方誤差是之前為了保證每項為正,且可導,對式子做了乙個平方,會導致量綱的問題,例如房價為萬元,平方後會變成萬元的平方,所以要改進。
由於絕對值不是處處可導的,這個誤差方式不便用來求極值。
計算方式如下
機器學習之線性回歸學習
說了這麼多,其實就是要引出今天的主題 線性回歸。線性回歸我覺得可以當成是機器學習中的長拳。線性回歸 這個下不就是往梯度方向走嗎,那我們沿著梯度一點一點滑下去唄,反正計算機不嫌累。梯度不就是上面那兩個公式唄。現在梯度有了,那每次滑多遠呢,一滑劃過頭了不久白算半天了嗎,所以還得定義步長,用來表示每次滑多...
機器學習之線性回歸
訓練樣例 x y 輸入變數 特徵 x ps n 1行,1 列 輸出變數 目標變數 y訓練樣例總數 m 特徵維度 n第 i 個訓練樣例 x i y i 所有訓練樣例的輸入變數組成的矩陣 x ps m行,n 1 列,每行是 x i t 所有訓練樣例的輸出變數組成的矩陣 y ps m行,1 列 下表是某地...
機器學習之線性回歸
線性回歸就是用線性方程去擬合一組資料,x 的最高端是1,用方程可以表示為 h x 0 1x1 n xn我們令 x0 1則上式可以改寫為 h x i 0n ixi tx 既然是擬合的模型,則肯定會存在不符合該模型的點,第 i 個點的真實值與模型 的值之間的差稱為誤差 e h x i y i 假設總共有...