數學建模 NO 12回歸模型補充

2021-10-14 16:58:34 字數 3419 閱讀 5601

解決異方差

多重共線性

解決多重共線性

逐步回歸分析

在上一節的回歸分析時我們都是預設了擾動項是球形擾動項

同方差性

無自相關

橫截面資料容易出現異方差的問題;

時間序列資料容易出現自相關的問題。

如果干擾項存在異方差會出現

ols估計出來的回歸係數是無偏的,一致的。

假設檢驗無法使用(構造的統計量無效)

ols估計量不是最優線性無偏估計量

如何解決

ols+穩健的標準誤

gls(廣義最小二乘法)

rvfplot (畫殘差與擬合值的散點圖)

觀察發現,擬合值越大,殘差分布越散,越不集中,存在異方差現象

rvpplot x (畫殘差與自變數x的散點圖)

hh0:不存在異方差

stata命令(在回歸結束後使用):

hh0:不存在異方差

**:

stata命令(在回歸結束後使用):

(1)使用ols + 穩健的標準誤

如果發現存在異方差,一 種處理方法是,仍然進行ols 回歸,但使用穩健標準誤。這是最簡單,也是目前通用的方法。只要樣本容量較大,即使在異方差的情況下,若使用穩健標準誤,則所 有引數估計、假設檢驗均可照常進行。換言之,只要使用了穩健標準誤,就可以與異方差「和平共處」了。

除去異方差後發現多個都滿足顯著性

(2)廣義最小二乘法gls

原理:方差較大的資料報含的資訊較少,我們可以給予資訊量大的資料(即方差較小的資料更大的權重)

缺點:我們不知道擾動項真實的協方差矩陣,因此我們只能用樣本資料來估計,這樣得到的結果不穩健,存在偶然性。

stock and watson (2011)推薦,在大多數情況下應該使用「ols + 穩健標準誤」。

##檢驗多重共線性

如果發現存在多重共線性,可以採取以下處理方法。

(1)如果不關心具體的回歸係數,而只關心整個方程**被解釋變數的能力,則通常可以 不必理會多重共線性(假設你的整個方程是顯著的)。這是因為,多重共線性的主要後果是使得對單個變數的貢獻估計不准,但所有變數的整體效應仍可以較準確地估計。

(2)如果關心具體的回歸係數,但多重共線性並不影響所關心變數的顯著性,那麼也可以不必理會。即使在有方差膨脹的情況下,這些係數依然顯著;如果沒有多重共線性,則只會更加顯著。

(3) 如果多重共線性影響到所關心變數的顯著性,則需要增大樣本容量,剔除導致嚴重共線性的變數(不要輕易刪除哦,因為可能會有內生性的影響),或對模型設定進行修改

向前逐步回歸forward selection:將自變數逐個引入模型,每引入乙個自變數後都要進行檢驗,顯著時才加入回歸模型。

(缺點:隨著以後其他自變數的引入,原來顯著的自變數也可能又變為不顯著了,但是,並沒有將其及時從回歸方程中剔除掉。)【不常用】

向前逐步回歸forward selection:

stepwise regress y x1 x2 … xk, pe(

#1)pe(

#1) specifies the significance level for addition to the model; terms with p

eligible for addition(顯著才加入模型中)

向後逐步回歸backward elimination:與向前逐步回歸相反,先將所有變數均放入模型,之後嘗試將其中乙個自變數從模型中剔除,看整個模型解釋因變數的變異是否有顯著變化,之後將最沒有解釋力的那個自變數剔除;此過程不斷迭代,直到沒有自變數符合剔除的條件。(缺點:一開始把全部變數都引入回歸方程,這樣計算量比較大。若對一些不重要的變數,一開始就不引入,這樣就可以減少一些計算。當然這個缺點隨著現在計算機的能力的提公升,已經變得不算問題了)【常用】

向後逐步回歸backward elimination:

stepwise regress y x1 x2 … xk, pr(

#2)pr(

#2) specifies the significance level for removal from the model; terms with p>= #2

are eligible for removal(不顯著就剔除出模型)

如果你覺得篩選後的變數仍很多,你可以減小#1或者#2

如果你覺得篩選後的變數太少了,你可以增加#1或者#2

注: (1)x1 x2 … xk之間不能有完全多重共線性(和regress不同哦) (2)可以在後面再加引數b和r,即標準化回歸係數或穩健標準誤

(1)向前逐步回歸和向後逐步回歸的結果可能不同。

(2)不要輕易使用逐步回歸分析,因為剔除了自變數後很有可能會產生新的問

題,例如內生性問題。

(3)有沒有更加優秀的篩選方法?有的,那就是每種情況都嘗試一次,最終一

共有2k-1種可能。如果自變數很多,那麼計算相當費時.

R in a Nutsbell 20 回歸模型

線性模型 擬合模型 用lm 函式擬合模型。lm formula y x1 x2 x3 xn,data formula y是響應變數,x是 變數。指定模型的工具函式 1 如果想在表示表示式字面上的含義而不是公式的含義,用恒等函式i 獲取模型資訊 1 首選用print 檢視模型資訊的首選方法。2 利用f...

《機器學習實戰》學習筆記 12 回歸 樹回歸

機器學習實戰 學習筆記 12 回歸 樹回歸 分類與回歸樹 classification and regression trees,cart 是由四人幫leo breiman,jerome friedman,richard olshen與charles stone於1984年提出,既可用於分類也可用於...

機器學習數學基礎 1 回歸 梯度下降

本系列文章將總結一些機器學習中應用到的數學基礎,想要學好機器學習,首先得去理解其中的數學意義,不一定要到能夠輕鬆自如的推導中間的公式,不過至少要認識這些公式,不然一些相關的 就看不懂,這個系列的文章將著重於機器學習的數學描述這個部分。回歸在數學上就是通過乙個點集,用一條曲線去擬合這些點,如果這條曲線...