什麼是線性回歸?
乙個標籤y和乙個特徵資料x呈線性關係,則x和y的線性方程為:
y = wx+b
則又由線性方程可知,將多個回歸係數w和特徵值x構建成相對應的向量,可得線性回歸方程:
y = wx^t+b
則假設我們有m個樣本n個特徵
則ym=wxm^t +b
最小二乘法
1.再假設wz是最合適得回歸係數
2.把所有已知樣本帶入方程組
3.求假設值和真實值的最小均方誤差
h = ((y1-y1z))^2 + (y2-y2z)^2 +(ym-ymz)^2/m
再將y1z、y2z、…、ymz帶入到h中
4.求均方誤差h的最小值
對帶入後的h導數為0 從而得到極值點
解得wz
h』 =2 [ [w』*x1^tx1 - x1^ty1] + [w』*x2^tx2- x2^ty2] + … + [w』*xm^txm - xm^tym] ]/m
令導數h』 = 0得到
[w』*x1^tx1 - x1^ty1] + [w』x2^tx2 - x2^ty2] + … + [w』xm^txm - xm^tym] = 0
===>
w』(x1^tx1 + x2^tx2 + … + xm^txm) - (x1^ty1 + x2^ty2 + … + xm^tym) = 0
===>
令x為矩陣 (x1,x2,…,xm) 令y為向量(y1,y2,…,ym)
w』x^tx - x^ty = 0斜體樣式
===>
w』x^tx = x^ty
注意:當xtx這個矩陣可逆的時候,兩邊同時乘以其逆矩陣,|xtx| != 0滿足的時候即滿秩
===>
這時當x^tx這個矩陣可逆的時候,mn時,x^tx這個矩陣不可逆時,那我們是不是就無法求得最適回歸係數?
這時我們選擇使用邏輯斯蒂函式來對這個矩陣不可逆的請況進行處理,具體可以看我的另一篇文章最大似然估計與最小二乘法
然後我們將線性回歸實現到python**中
這時我們引入了兩個sklearn庫中的兩種評價尺度方法,來幫助我們合理的評估我們訓練好的線性回歸模型。
1.均方誤差(mean-ssquard-error)
2.平均絕對值誤差(mean_absolute_error)
在這裡我們可以發現,無論時均方誤差還是平均絕對誤差都過高。模型可能出現了欠擬合或者過擬合的現象,那我們這是需要思考線性回歸如何優化才能達到我們的期望呢?
l2範數正則化和l1範數正則化
新增懲罰項,重新構造損失函式,l2正則化又叫嶺回歸。嶺回歸可以解決m
線性回歸一般比較適用於處理資料集大,高維度資料
線性回歸訓練模型的目的是什麼?
得到合適的回歸係數,構建最佳模型,從而得到最佳模型。
機器學習之線性回歸模型的理解
線性回歸的機器學習型別 監督學習。注 監督學習的概念 訓練樣本的資料集存在標籤集,在機器u型誒下訓練過程中需要用到標籤集的資訊,完成擬合模型的訓練,故稱之為監督學習。監督學習也可以理解為有標準答案的學習,越接近標準答案,訓練的結果越好。線性回歸的任務 訓練乙個對映,可以很好地擬合訓練樣本的資料,同時...
機器學習之線性回歸
訓練樣例 x y 輸入變數 特徵 x ps n 1行,1 列 輸出變數 目標變數 y訓練樣例總數 m 特徵維度 n第 i 個訓練樣例 x i y i 所有訓練樣例的輸入變數組成的矩陣 x ps m行,n 1 列,每行是 x i t 所有訓練樣例的輸出變數組成的矩陣 y ps m行,1 列 下表是某地...
機器學習之線性回歸
線性回歸就是用線性方程去擬合一組資料,x 的最高端是1,用方程可以表示為 h x 0 1x1 n xn我們令 x0 1則上式可以改寫為 h x i 0n ixi tx 既然是擬合的模型,則肯定會存在不符合該模型的點,第 i 個點的真實值與模型 的值之間的差稱為誤差 e h x i y i 假設總共有...