逐步回歸法的基本步驟 逐步回歸法介紹及應用

2021-10-12 05:31:43 字數 2654 閱讀 4016

一、逐步回歸法介紹

逐步回歸的基本思想是通過剔除變數中不太重要又和其他變數高度相關的變數,降低多重共線性程度。將變數逐個引入模型,每引入乙個解釋變數後都要進行f檢驗,並對已經選入的解釋變數逐個進行t檢驗,當原來引入的解釋變數由於後面解釋變數的引入變得不再顯著時,則將其刪除,以確保每次引入新的變數之前回歸方程中只包含顯著性變數。這是乙個反覆的過程,直到既沒有顯著的解釋變數選入回歸方程,也沒有不顯著的解釋變數從回歸方程中剔除為止,以保證最後所得到的解釋變數集是最優的。

逐步回歸法的好處是將統計上不顯著的解釋變數剔除,最後保留在模型中的解釋變數之間多重共線性不明顯,而且對被解釋變數有較好的解釋貢獻。但是應特別注意,逐步回歸法可能因為刪除了重要的相關變數而導致設定偏誤。

二、逐步型選元法

逐步回歸法選擇變數的過程包含兩個基本步驟:一是從回歸模型中剔出經檢驗不顯著的變數,二是引入新變數到回歸模型中,常用的逐步型選元法有向前法和向後法。

向前法:向前法的思想是變數由少到多,每次增加乙個,直至沒有可引入的變數為止。具體步驟如下。

依此方法重複進行,每次從未引入回歸模型的自變數中選取乙個,直到經檢驗沒有變數引入為止。

向後法與向前法正好相反,它事先將全部自變數選入回歸模型,再逐個剔除對殘差平方和貢獻較小的自變數。

三、實證分析

本文選擇了5個可能影響糧食產量的因素,變數分別為:糧食產量(萬噸)y,糧食播種面積(千公頃)x1,灌溉面積(千公頃)x2,化肥施用量(萬噸)x3,大型拖拉機數量(萬台)x4,小型拖拉機數量(萬台)x5。本文選擇了31個省2023年的資料,資料**於《中國統計年鑑》。

首先對資料進行相關性檢驗,輸出結果如圖1。

圖1 相關性檢驗

通過r軟體輸出自變數與因變數之間的相關係數圖和相關係數矩陣,由輸出結果可以看出,除各個自變數與糧食產量之間存在較高的相關關係外,自變數之間同樣存在較高的相關關係,如糧食播種面積與灌溉面積之間的相關係數為0.88。若直接構建多元線性回歸模型,會出現嚴重的多重共線性。

圖2 引入所有變數進行回歸

讓所有變數進入方程,構建糧食產量關於所有解釋變數的多元線性回歸模型,在不考慮多重共線性的問題下輸出回歸結果,可以得到:

在圖2輸出結果的顯著性分析中,儘管該模型調整後的r2很高,但除x1和x4在p<0.05的水平下顯著不為0外,其餘三個指標均無法通過顯著性檢驗,即認為當控制其他變數不變時,這些指標與糧食產量沒有顯著的線性相關關係。因此,我們採取逐步回歸的方法對控制變數進行篩選,逐步選取對糧食產量擬合最好的解釋變數,輸出結果如圖3。

圖3 逐步回歸

根據逐步回歸結果,當線性回歸模型在刪除x2和x5兩個變數後,再去掉其他任意變數aic的值都增加,逐步回歸分析終止得到當前最優的回歸方程。

剔除多餘變數後,選取x1、x3和x4三個變數重新對糧食產量進行回歸,輸出結果如圖4。

圖4 逐步回歸模型

在圖4輸出結果的顯著性分析中,x1、x3和x4在p<0.05的水平下顯著不為0,同時該模型調整後的r2也有所增加。模型整體擬合程度較好,得到當前最優的回歸模型。根據圖4輸出結果,得到如下回歸方程:

對回歸方程進行多重共線性檢驗,輸出結果如圖5。

圖5 多重共線性檢驗

經檢驗,x1、x3和x4三個變數的vif值均小於10。因此,由x1、x3和x4三個變數對糧食產量進行回歸得到的回歸方程不存在多重共線性。

四、特別說明

本文僅介紹了用逐步回歸法剔除變數中不太重要又和其他變數高度相關的變數,降低多重共線性程度,得到不存在多重共線性的多元線性回歸方程。在實際應用對資料建立多元線性回歸方程時,解決多重共線性問題後仍需要對回歸方程進行自相關檢驗和同方差檢驗。

c=read.csv("e:",sep=",",header=t)##匯入資料fix(c)attach(c)cor(c)##相關係數install.packages("psych")library(psych)corr.test(c,use = "complete",method = "pearson",adjust = "none")##相關性檢驗t=lm(y~.,data=c)##所有變數進入方程summary(t)install.packages("mass")library(mass)stepaic(t,direction="both")##逐步回歸分析t1=lm(y~x1+x3+x4,data=c)#選取x1,x3,x4進入方程,在顯著性0.05的情況下各自變數通過檢驗summary(t1)install.packages("car")library(car)vif(t1)#檢驗多重共線性

python逐步回歸法 逐步回歸的快速實現

forward selection,which involves starting with no variables in the model,testing the addition of each variable using a chosen model comparison criteri...

Matlab 逐步回歸

例 hald,1960 hald 資料是關於水泥生產的資料。某種水泥在凝固時放出的熱量 y 單位 卡 克 與水泥中 4 種化學成品所佔的百分比有關 在生產中測得 12 組資料,見表5,試建立 y 關於這些因子的 最優 回歸方程。對於例 4 中的問題,可以使用多元線性回歸 多元多項式回歸,但也可以考慮...

逐步回歸(R語言)

r軟體提供了非常方便地進行逐步回歸分析的計算函式step 它是以aic資訊統計量為準則,通過選擇最小的aic資訊統計量。來達到提出或新增變數的目的。實現如下 data3.1 lmo3.1 lm3.1.for summary lm3.1.for 輸出結果如下 由上述結果可以看到,前進法一次引入了x5,...