線性回歸診斷--r
ljt 勿忘初心 無畏未來
作為乙個初學者,水平有限,歡迎交流指正。
在r中線性回歸,一般使用lm函式就可以得到線性回歸模型,但是得到的模型到底合不合適?在我們使用所得到的線性模型之前就需要進行回歸診斷。
線性回歸的診斷,主要是檢驗線性回歸模型的假設是否成立。
線性回歸模型 y=θ0+θ1x1+θ2x2+.......+θmxm+ε (自變數與因變數之間是線性關係)
基本假設:
(1)隨機干擾項 ε 服從零均值,同方差,零協方差(相互獨立)的正態分佈
e(εi)=0 ; var(εi)=σ2 ;cov(εi , εj)=0 ;
εi~n(0,σ2)
(2)隨機干擾項 ε 與解釋變數間不相關
cov(xi , εi) =0
(一)顯著性檢驗
(1)回歸方程顯著性 f 檢驗 : 看自變數 x1 , x2 .....xm 從整體上對隨機變數y是否有明顯的影響 。
原假設 h0:θ1 =θ2=.....=θm=0 (h0 若被接受則表明隨機變數y與x1 , x2 .....xm 之間的關係由線性回歸模型表示不合適)
p值(2)回歸係數顯著性 t 檢驗:看單個的自變數 xi 對y是否有明顯影響。
原假設 h0i :θi =0 (h0i 若被接受則表明自變數xi 對因變數y的線性效果不顯著)
p值對於一元線性回歸這兩種檢驗是等價的;
對於多元線性回歸,這兩種檢驗是不等價的:
f檢驗顯著,說明y對自變數x1 , x2 .....xm 整體的線性回歸效果是顯著的,但不等於y對每個自變數xi 的效果都顯著;反之,某個或某幾個xi 的係數不顯著,回歸方程顯著性的f檢驗仍然有可能是顯著的。由於某些自變數不顯著,因而在多元回歸中並不是包含在回歸方程中的自變數越多越好,需要剔除對y無顯著影響的自變數。
(二)擬合優度
擬合優度用於檢驗回歸方程對樣本觀測值的擬合程度。
樣本決定係數 r2 = ssr/sst = 1 - sse/sst (r2屬於[0,1] )
r2 越接近 1 ,表明回歸擬合的效果越好;
r2 越接近 0 ,表明回歸擬合的效果越差。
與f檢驗相比,r2 可以更清楚直觀地反映回歸擬合的效果,但是並不能作為嚴格的顯著性檢驗。需要指出的是,擬合優度並不是檢驗模型優劣的唯一標準,有時為了使模型從結構上有較合理的經濟解釋,在樣本量n 較大時,r2 等於0.7左右我們也給回歸模型以肯定態度。需要注意的是 r2與回歸方程匯中自變數的數目以及樣本量n有關,當樣本量n與自變數的個數接近時,r2易接近於1,其中隱含著一些虛假的成分。
下面結合例項對r語言中線性擬合函式lm的結果進行分析
>回歸結果的診斷:>
> head(bank)
y x1 x2 x3 x4
1 1018.4 96259 2239.1 50760 1132.3
2 1258.9 97542 2619.4 39370 1146.4
3 1359.4 98705 2976.1 44530 1159.9
4 1545.6 100072 3309.1 39790 1175.8
5 1761.6 101654 3637.9 33130 1212.3
6 1960.8 103008 4020.5 34710 1367.0
>
> fline
> summary(fline)
call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = bank)
residuals:
min 1q median 3q max
-487.35 -78.89 -2.65 137.02 403.78
coefficients:
estimate std. error t value pr(>|t|)
(intercept) -4.168e+03 1.193e+03 -3.495 0.002998 **
x1 5.842e-02 1.216e-02 4.805 0.000194 ***
x2 4.142e-01 3.218e-02 12.871 7.41e-10 ***
x3 -1.384e-02 8.520e-03 -1.624 0.123826
x4 -7.062e-01 1.750e-01 -4.035 0.000959 ***
---signif. codes: 0 『***』 0.001 『**』 0.01 『*』 0.05 『.』 0.1 『 』 1
residual standard error: 217.7 on 16 degrees of freedom
multiple r-squared: 0.9982, adjusted r-squared: 0.9978
f-statistic: 2222 on 4 and 16 df, p-value: < 2.2e-16
>
>
(1)f-statistic
回歸方程顯著性 f 檢驗中的f統計量,其p值<2.2e-16<0.05 ,表明y 與 x1 , x2 ,x3,x4有顯著的線性關係,回歸方程整體是顯著的。
(2)coefficients
estimate 即回歸係數的估計值,其對應的 p(>|t|)為各回歸係數t檢驗的p值。
從回歸結果看,x3的p值為0.123826>0.05,表明x3對y沒有顯著影響,應考慮刪除變數x3;其他三個變數的p值都<0.05,對y 都有顯著的影響。
---------以上兩個回歸檢驗的結果也表明,自變數整體對於因變數有顯著影響,並不表明每個自變數對因變數都有顯著影響。
(3)multiple r-squared ; adjusted r-squared
分別表示 『擬合優度』 ,『修正的擬合優度』
擬合優度值為 0.9982 很接近於 1 ,表明回歸方程對樣本觀測值的擬合程度較高。
(1)殘差圖
殘差圖分析法是一種直觀、方便的分析方法。它以殘差ei 為縱座標,以其他適宜的變數(如樣本擬合值)為橫座標畫散點圖,主要用來檢驗是否存在異方差。
一般情況下,當回歸模型滿足所有假定時,殘差圖上的n個點的散布應該是隨機的,無任何規律。如果殘差圖上的點的散布呈現出一定趨勢(隨橫座標的增大而增大或減小),則可以判斷回歸模型存在異方差。
異方差:某一因素或某些因素隨著解釋變數觀測值的變化而對被解釋變數產生不同的影響,導致隨機誤差產生不同方差。
當存在異方差時,普通最小二乘估計存在以下問題:
(i) 引數估計值雖然是無偏的,但不是最小方差線性無偏估計;
(ii) 引數的顯著性檢驗失效;
(iii) 回歸方程的應用效果極不理想。
(2)q-q圖
q-q圖主要用來檢驗樣本是否近似服從正態分佈。
對於標準狀態分布而言,q-q圖上的點近似在y=x直線附近。
(3)標準化殘差方根散點圖
此圖類似於殘差圖,只是其縱座標變為了標準化殘差的絕對值開方。
(4)cook距離圖
庫克距離用來判斷強影響點是否為y的異常值點。
一般認為 當d<0.5時認為不是異常值點;當d>0.5時認為是異常值點。
從回歸的四個圖形結果來看:
殘差圖 residuals vs fitted : 圖上的點基本服從隨機分布,可以認為不存在異方差的情況;
標準q-q圖 normal q-q : 圖上的點基本都在y=x直線附件,可認為樣本近似服從正態分佈;
標準化殘差方根散點圖 scale-location:類似與殘差圖,點的分布基本是隨機的。
庫克距離圖 cook『s distance : 最大的庫克距離為0.3左右,可以認為沒有異常值點。
R語言線性回歸
線性回歸模型 線性回歸模型的計算 lm 可以完成多元線性回歸函式的估計,回歸系統與回歸方程的檢驗的工作 summary 函式,返回列表內容 x1表示體重,x2表示年齡,y表示對應體重與年齡下的血壓 blood data frame x1 c 76.0,91.5,85.5,82.5,79.0,80.5...
R語言 一元線性回歸
一元線性回歸的基本步驟 1.載入資料 給出散點圖 x plot x,y 2.線性回歸 得到回歸方程 並檢視回歸結果 所得回歸方程為y 130.83x 28.49 3.線性擬合 abline cg 新增擬合直線 4.x0 0.16時相應y的概率為0.95的 區間 x0 pred prediction ...
R語言多元線性回歸
1 根據業務經驗挑選出可能對 目標變數有影響的指標 2 將這些指針對目標變數做相關性分析cor 挑選出相關係數較大的指標進一步分析 3 檢驗這些指標與目標變數是否線性關係,一般可以plot 檢驗,如果非線性,嘗試做平方或開方等方法使之變成線性 3 將相關係數較大的指標全部作為解釋變數做多遠線性回歸l...