解決異方差
多重共線性
解決多重共線性
逐步回歸分析
在上一節的回歸分析時我們都是預設了擾動項是球形擾動項
同方差性
無自相關
橫截面資料容易出現異方差的問題;
時間序列資料容易出現自相關的問題。
如果干擾項存在異方差會出現
ols估計出來的回歸係數是無偏的,一致的。
假設檢驗無法使用(構造的統計量無效)
ols估計量不是最優線性無偏估計量
如何解決
ols+穩健的標準誤
gls(廣義最小二乘法)
rvfplot (畫殘差與擬合值的散點圖)
觀察發現,擬合值越大,殘差分布越散,越不集中,存在異方差現象
rvpplot x (畫殘差與自變數x的散點圖)
hh0:不存在異方差
stata命令(在回歸結束後使用):
hh0:不存在異方差
**:
stata命令(在回歸結束後使用):
(1)使用ols + 穩健的標準誤
如果發現存在異方差,一 種處理方法是,仍然進行ols 回歸,但使用穩健標準誤。這是最簡單,也是目前通用的方法。只要樣本容量較大,即使在異方差的情況下,若使用穩健標準誤,則所 有引數估計、假設檢驗均可照常進行。換言之,只要使用了穩健標準誤,就可以與異方差「和平共處」了。
除去異方差後發現多個都滿足顯著性
(2)廣義最小二乘法gls
原理:方差較大的資料報含的資訊較少,我們可以給予資訊量大的資料(即方差較小的資料更大的權重)
缺點:我們不知道擾動項真實的協方差矩陣,因此我們只能用樣本資料來估計,這樣得到的結果不穩健,存在偶然性。
stock and watson (2011)推薦,在大多數情況下應該使用「ols + 穩健標準誤」。
##檢驗多重共線性
如果發現存在多重共線性,可以採取以下處理方法。
(1)如果不關心具體的回歸係數,而只關心整個方程**被解釋變數的能力,則通常可以 不必理會多重共線性(假設你的整個方程是顯著的)。這是因為,多重共線性的主要後果是使得對單個變數的貢獻估計不准,但所有變數的整體效應仍可以較準確地估計。
(2)如果關心具體的回歸係數,但多重共線性並不影響所關心變數的顯著性,那麼也可以不必理會。即使在有方差膨脹的情況下,這些係數依然顯著;如果沒有多重共線性,則只會更加顯著。
(3) 如果多重共線性影響到所關心變數的顯著性,則需要增大樣本容量,剔除導致嚴重共線性的變數(不要輕易刪除哦,因為可能會有內生性的影響),或對模型設定進行修改
向前逐步回歸forward selection:將自變數逐個引入模型,每引入乙個自變數後都要進行檢驗,顯著時才加入回歸模型。
(缺點:隨著以後其他自變數的引入,原來顯著的自變數也可能又變為不顯著了,但是,並沒有將其及時從回歸方程中剔除掉。)【不常用】
向前逐步回歸forward selection:
stepwise regress y x1 x2 … xk, pe(
#1)pe(
#1) specifies the significance level for addition to the model; terms with p
eligible for addition(顯著才加入模型中)
向後逐步回歸backward elimination:與向前逐步回歸相反,先將所有變數均放入模型,之後嘗試將其中乙個自變數從模型中剔除,看整個模型解釋因變數的變異是否有顯著變化,之後將最沒有解釋力的那個自變數剔除;此過程不斷迭代,直到沒有自變數符合剔除的條件。(缺點:一開始把全部變數都引入回歸方程,這樣計算量比較大。若對一些不重要的變數,一開始就不引入,這樣就可以減少一些計算。當然這個缺點隨著現在計算機的能力的提公升,已經變得不算問題了)【常用】
向後逐步回歸backward elimination:
stepwise regress y x1 x2 … xk, pr(
#2)pr(
#2) specifies the significance level for removal from the model; terms with p>= #2
are eligible for removal(不顯著就剔除出模型)
如果你覺得篩選後的變數仍很多,你可以減小#1或者#2
如果你覺得篩選後的變數太少了,你可以增加#1或者#2
注: (1)x1 x2 … xk之間不能有完全多重共線性(和regress不同哦) (2)可以在後面再加引數b和r,即標準化回歸係數或穩健標準誤
(1)向前逐步回歸和向後逐步回歸的結果可能不同。
(2)不要輕易使用逐步回歸分析,因為剔除了自變數後很有可能會產生新的問
題,例如內生性問題。
(3)有沒有更加優秀的篩選方法?有的,那就是每種情況都嘗試一次,最終一
共有2k-1種可能。如果自變數很多,那麼計算相當費時.
R in a Nutsbell 20 回歸模型
線性模型 擬合模型 用lm 函式擬合模型。lm formula y x1 x2 x3 xn,data formula y是響應變數,x是 變數。指定模型的工具函式 1 如果想在表示表示式字面上的含義而不是公式的含義,用恒等函式i 獲取模型資訊 1 首選用print 檢視模型資訊的首選方法。2 利用f...
《機器學習實戰》學習筆記 12 回歸 樹回歸
機器學習實戰 學習筆記 12 回歸 樹回歸 分類與回歸樹 classification and regression trees,cart 是由四人幫leo breiman,jerome friedman,richard olshen與charles stone於1984年提出,既可用於分類也可用於...
機器學習數學基礎 1 回歸 梯度下降
本系列文章將總結一些機器學習中應用到的數學基礎,想要學好機器學習,首先得去理解其中的數學意義,不一定要到能夠輕鬆自如的推導中間的公式,不過至少要認識這些公式,不然一些相關的 就看不懂,這個系列的文章將著重於機器學習的數學描述這個部分。回歸在數學上就是通過乙個點集,用一條曲線去擬合這些點,如果這條曲線...