機器學習之多元線性回歸

2021-08-29 12:15:43 字數 2571 閱讀 6761

多元線性回歸概念:

在回歸分析中,如果有兩個或兩個以上的自變數,就稱為多元回歸。社會經濟現象的變化往往受到多個因素的影響,例如,家庭消費支出,除了受家庭可支配收入的影響外,還受諸如家庭所有的財富、物價水平、金融機構存款利息等多種因素的影響。因此,一般要進行多元回歸分析,我們把包括兩個或兩個以上自變數的回歸稱為多元線性回歸。一元線性回歸是乙個主要影響因素作為自變數來解釋因變數的變化。事實上,一種現象常常是與多個因素相聯絡的,由多個自變數的最優組合共同來**或估計因變數,比只用乙個自變數進行**或估計更有效,更符合實際。因此多元線性回歸比一元線性回歸的實用意義更大。

多元線性回歸與一元線性回歸類似,可以用最小二乘法估計模型引數,也需對模型及模型引數進行統計檢驗

選擇合適的自變數是正確進行多元回歸**的前提之一,多元回歸模型自變數的選擇可以利用變數之間的相關矩陣來解決。

多元線性回歸服從正態分佈:

多元線性回歸要求服從高斯分布也就是正態分佈。

正態分佈函式:

多元線性回歸模型:

多元線性回歸模型為:

其中,b0為常數項,b1,b2…bk為回歸係數,b1為x1,x2…xk固定時,x1每增加乙個單位對y的效應,即x1對y的偏回歸係數;同理b2為x1,x2…xk固定時,x2每增加乙個單位對y的效應,即,x2對y的偏回歸係數,等等。如果兩個自變數x1,x2同乙個因變數y呈線相關時,可用二元線性回歸模型描述為:

最小二乘法求解引數。以二線性回歸模型為例,求解回歸引數的標準方程組為:

解此方程可求得b0,b1,b2的數值。亦可用下列矩陣法求得:

即:

最大似然估計和最小二乘法

又比如兩個變數:

使用最大似然估計解釋最小二乘:

高斯的對數似然與最小二乘:

多元回歸模型的檢測與評價:

多元性回歸模型與一元線性回歸模型一樣,在得到引數的最小二乘法的估計值之後,也需要進行必要的檢驗與評價,以決定模型是否可以應用。需要以下幾個步驟:

1、擬合程度的測定

與一元線性回歸中可決係數r2相對應,多元線性回歸中也有多重可決係數r2,它是在因變數的總變化中,由回歸方程解釋的變動(回歸平方和)所佔的比重,r2越大,回歸方各對樣本資料點擬合的程度越強,所有自變數與因變數的關係越密切。計算公式為:

2.估計標準誤差

估計標準誤差,即因變數y的實際值與回歸方程求出的估計值 之間的標準誤差,估計標準誤差越小,回歸方程擬合程度越好。

其中,k為多元線性回歸方程中的自變數的個數。

3.回歸方程的顯著性檢驗

回歸方程的顯著性檢驗,即檢驗整個回歸方程的顯著性,或者說評價所有自變數與因變數的線性關係是否密切。能常採用f檢驗,f統計量的計算公式為:

根據給定的顯著水平a,自由度(k,n-k-1)查f分布表,得到相應的臨界值fa,若f > fa,則回歸方程具有顯著意義,回歸效果顯著:f多元線性回歸的應用:

(1)確定幾個特定的變數之間是否存在相關關係,如果存在的話,找出它們之間合適的數學表示式;

(2)根據乙個或幾個變數的值,**或控制另乙個變數的取值,並且可以知道這種**或控制能達到什麼樣的精確度;

(3)進行因素分析。例如在對於共同影響乙個變數的許多變數(因素)之間,找出哪些是重要因素,哪些是次要因素,這些因素之間又有什麼關係等等。

實際生活中,多元線性回歸可以分析許多東西,如:居民儲蓄存款的影響因素分析,房價的影響因素分析,醫療費用的分析,老人高血壓的影響因素分析,愛滋病患者生活質量分析。

7 線性回歸之多元線性回歸

當自變數有多個時,回歸模型就變成了 多元回歸方程變為 估計多元回歸方程變為 估計方法 多元回歸的求解比簡單線性回歸複雜但是思路是相同的,運用最小二乘法進行相應的求解,這裡不再進行展開。問題 如故乙個運輸任務是跑102英里,運輸了6次,預計多少小時?from numpy import genfromt...

機器學習(4) 多元線性回歸

乙個唯一的因變數和多個自變數 之間的關係 這裡自變數在處理之前不僅僅是數值型 上圖 我們要做的也就是,尋找到最佳的b0 b1 bn 這裡有關於50個公司的資料 spend1 2 3代表了公司在某三個方面的花銷,state是公司的的位址,profit則是公司去年的收入。現在要選擇目標公司,要求績效最好...

機器學習(九) 多元線性回歸

1 與簡單線性回歸區別 多個自變數 x 2 多元回歸模型 3 多元回歸方程 4 估計多元回歸方程 5 估計流程 6 估計方法 7 舉例 一家快遞公司送貨統計10次 x1 運輸里程miles,x2 運輸次數deliveries,y 總運輸時間 資料代入後計算b0,b1,b2 time 0.869 0....