聽了天津財經大學高華川老師的一堂課,發現很多問題,確實是學習過程中很容易忽視的卻很重要的問題,所以大致總結一下。
首先要肯定的是,回歸方程表示的必然是相關關係,但是當有理論支撐,說明x與y存在因果關係的時候,係數才可能表示因果關係,因果關係必然相關,但是相關卻不一定有因果,比如下面這個例子,
用w代表吸菸,y表示患肺癌,x表示帶打火機,從我們的常識來看,吸菸會導致肺癌,這是因果關係,吸菸的人也會隨身攜帶打火機,這也是因果關係,但是從資料分析的結果來看,x與y會存在顯著的相關關係,我們卻不能說帶打火機會導致患肺癌,這顯然是荒謬的。
那什麼時候,回歸係數可以表示因果關係呢,第一種情況比較簡單,我們明確知道y只受x的影響,那麼我們做回歸分析,得到的係數就表示因果關係。
下面這種情況就比較複雜,w、x影響y,但是w還影響x,我們要知道x對y的影響,x是我們的興趣變數,是主要研究的物件,研究過程必須控制w不變,否則x的回歸係數包含了w對y的影響,也就是w是控制變數,我們不關心他的回歸係數,只是希望他在研究x的時候保持不變,這樣我們可以把wx同時放到模型當中,建立模型y=β0+β1x+β2w+e,回歸係數β的含義,就是在保持w不變的情況下,x對y因果關係的影響。
遺漏重要變數,除了導致模型異方差之外,更重要的是引發模型內生性,如果模型中不含w,那麼,w的影響就會表現在隨機誤差項中,就會違背古典線性模型的假定:cov(x,e)=0,造成回歸係數估計的無偏性喪失,有效性等性質都建立在無偏性的基礎上,因而也不復存在。
模型內生性,是模型最嚴重的問題之一,
而教材中強調的多重共線性,是廣泛存在的現象,僅會導致估計量的方差變大,容易造成引數t檢驗不顯著,在**類問題中大都不需要太過重視;
異方差性在實際工作中,一般採取方差穩健標準誤,基本消除了異方差的影響
序列自相關存在在時間序列中,一般是我們主要研究的物件
而模型內生性,我們沒有太好的處理方法,而且問題的後果比較嚴重,卻被教材忽略。
模型內生性產生的原因主要有以下四點:
1.遺漏重要變數,就是上面提到的遺漏w的現象
2.測量誤差有時會導致模型內生性
3.互為因果,後面我們會舉例
4.序列自相關
如果還是不理解內生性問題的嚴重性,我們來看下面這個例子:
去醫院會讓人變得健康嗎?
我們都知道,醫院是治病救人的地方,所以去醫院的人應該比沒去過的醫院的人更健康,但是從資料結果上來看,沒有去過醫院的人更健康,也很容易理解,沒病誰去醫院吶!這就是乙個互為因果的例子,因為健康水平和去醫院這兩個變數相互影響,所以就導致我們的資料分析出來的結果於事實相悖,這就是內生性的危害,他有顛倒是非的能力。
目前對內生性問題的處理,我了解到的最常用的是工具變數,需要找乙個變數,它和去過醫院呈高度相關,卻和健康水平不相關,說起來容易做起來難,這種變數的尋找,就需要大家開動自己的智慧型了。 關於內生性的處理方法還有其他的,只是我不太了解。
1.did雙重差分法
did常用於政策評價or專案評估(program evaluation),適用於事前所有個體都沒有受到政策干預,而事後只有一組個體受到政策干預。受到政策干預的組稱為處理組,沒有受到政策干預的為控制組。
下面這個例子是研究提高最低工資是否會降低就業的問題,pa和nj是兩個地名,大家不用在意,nj在4月提高了最低工資水平,pa的最低工資水平在這一年內沒有變化,我們知道提高最低工資水平一方面可以提高工人的收入,另一方面可能會影響企業雇傭工人的決策,本例就想**nj提高最低工資水平對就業又怎樣的影響,從資料上看,11月的就業水平確實高於2月的,即該政策不會降低就業,但是我們不知道如果沒有這項政策,nj在11月的就業到底處於乙個怎樣的水平。
於是雙重差分法做了乙個不是那麼不合理的假設,他假設nj和pa的就業水平在2月到11月擁有相同的變化趨勢,所以我們在實際工作中要找到盡可能接近的兩個地區進行比較,這個假設才合理。
panj
最低工資上公升前(2月)的
平均雇員數
23.33
(1.35)
20.44
(0.51)
最低工資上公升後(11月)的
平均雇員數
21.17
(0.94)
21.03
(0.52)
接下來就是did的過程,首先記錄2月到11月就業的變化趨勢,pa變化了-2.16,nj變化了0.59,在共同趨勢假設成立的條件下,兩地的變化差異只受到政策的影響,即政策影響了0.59-(-2.16)=2.75的影響,下面的圖可以幫助理解。
2.合成控制
在實際中,我們很難找到與研究物件相似的控制組,所以我們可以換乙個思路,我們選取評價兩個物件相似程度的一組指標,對各個地區加權求和,使這個加權之後的各個指標都和我們要研究的物件基本保持一致,這樣可以就有了乙個新的控制組,乙個合成的nj,再用這個合成nj的就業水平和nj做雙重差分,可以得到更準確的結果,因為各個地區的加權中和掉了其他的一些隨機因素,是要比單純乙個pa好得多的方法。
計量經濟學建模 計量經濟學tips
01 計量建模時一般考慮線性模型,why?我的答案很簡單 why not?反正模型的形式是未知的。既然未知,為何不選最簡單的線性模型?02 很多教科書一討論引數估計,就搬出幾大標準 無偏性 有效性和一致性。這幾個性質的地位是不一樣的。一致性是最重要的,而有效性在它面前微不足道。至於有偏無偏,即使有偏...
計量經濟學建模 計量經濟學tips
01 計量建模時一般考慮線性模型,why?我的答案很簡單 why not?反正模型的形式是未知的。既然未知,為何不選最簡單的線性模型?02 很多教科書一討論引數估計,就搬出幾大標準 無偏性 有效性和一致性。這幾個性質的地位是不一樣的。一致性是最重要的,而有效性在它面前微不足道。至於有偏無偏,即使有偏...
《計量經濟學 下冊》
一本好書,節省幾個月的時間,很多在其他地方學到的複雜的東西,這裡寫的很簡單,邏輯很清晰 非常棒的一本教材,這才是教材嘛。目前重點看它的第五章 時間序列計量經濟學。做任何時間數列的分析時,通常第一步工作是先看看數量的圖形。具體的內容摘要,放到 時間序列分析與量化交易 4 從經典角度看概念。非常棒的一本...