注意:本筆記以文字概括為主,公式為輔,問為啥,因為貼和打公式對於我來說,太煩啦~所以,就只把每個章節裡覺得重要的一些概念記下來。
書籍:《計量經濟學(第三版)》–李子奈
2.2一元線性回歸模型的基本假設
2.3一元線性回歸模型的引數估計
2.4一元線性回歸模型的統計檢驗
2.5一元線性回歸分析的應用:**問題
一、回歸分析基本概念
●各種經濟變數間的關係可分為兩類:一類是確定的函式關係,另一類是不確定的統計相關關係。
●相關分析與回歸分析主要研究非確定性現象間的統計相關關係
●回歸分析的目的在於通過解釋變數的已知值或設定值,去估計和**被解釋變數的(總體)均值
●相關分析與回歸分析的聯絡與區別:
①首先,兩者都是研究非確定性變數間的統計依賴關係,並能度量線性依賴程度的大小。
②其次,兩者間又有明顯的區別。相關分析僅僅是從統計資料上測度變數間的相關程度,而無須考察兩者問是否有因果關係,因此,變數的地位在相關分析中是對稱的,而且都是隨機變數;回歸分析則更關注具有統計相關關係的變數間的因果關係分析,變數的地位是不對稱的,有解釋變數與被解釋變數之分,而且解釋變數也往往被假設為非隨機變數。
③再次,相關分析只關注變數間的聯絡程度,不關注具體的依賴關係:而回歸分析則更加關注變數間的具體依賴關係,因此可以進一步通過解釋變數的變化來估計或**被解釋變數的變化,達到深入分析變數間依存關係,掌握其運動規律的目的。
●回歸分析的主要內容:
①根據樣本觀察值對計量經濟學模型引數進行估計,求得回歸方程
②對回歸方程、引數估計值進行顯著性檢驗
③利用回歸方程進行分析、評價及**
二、總體回歸函式
●在給定解釋變數x條件下被解釋變數y的期望軌跡稱為總體回歸線。或更一般地稱為總體回歸曲線。相應的函式:
e(y│x)=f(x)
稱為(雙變數)總體回歸函式.總體回歸函式表明被解釋變數y的平均狀態(總體條件期望)隨解釋變數x變化的規律。至於具體的函式形式,是由所考察總體固有的特徵來決定的。
●線性總體回歸函式:
e(y│x)=β
0+β1* x
其中,β0和β1是未知引數,稱為回歸係數。線性函式形式最為簡單,其中引數的估計與檢驗也相對容易,而且多數非線性函式可轉換為線性形式,因此,為了研究的方便,計量經濟學中總體回歸函式常設定成線性形式。
●經典計量經濟方法中所涉及的線性函式,指回歸係數是線性的,即回歸係數只以它的一次方出現,對解釋變數則可以不是線性的。
三、隨機干擾性
●隨機干擾項μ:
μ=y-e(y|x)
稱μ為觀察值y圍繞它的期望值e(y|x) 的離差。它是乙個不可觀測的隨機變數,稱為隨機誤差項。通常又不加區別地稱為隨機干擾項。
●總體回歸函式的隨機形式:
y=e(y|x)+μ
y=β 0+β
1 *x+μ
●在總體回歸函式中引入隨機干擾項,主要有以下幾個方面的原因:
①代表未知的影響因素
②代表殘缺資料
③代表眾多細小影響因素
④代表資料觀測誤差
⑤代表模型設定誤差
⑥變數的內在隨機性
當隨機干擾項僅包含上述③和⑥時,稱為「原生」的隨機干擾,是模型所固有的;當隨機干擾項包含上述①②④⑤,稱之為「衍生」的隨機誤差,是在模型設定過程中產生的。
四、樣本回歸函式
●由於樣本取自總體,可用該直線近似地代表總體回歸線該直線稱為樣本回歸線,其函式形式記為:
稱之為樣本回歸函式。
●同樣地,樣本回歸函式也有如下的隨機形式:
其中,e稱為(樣本)殘差(或剩餘)項,代表了其他影響y的隨機因素的集合。由於方程中引入了隨機項,成為計量經濟學模型,因此也稱之為樣本回歸模型。
●為了保證引數估計量具有良好的性質,通常對模型提出若干基本假設:
對模型設定的假設:
①回歸模型是正確設定的
對解釋變數的假設:
②解釋變數x是確定性變數,不是隨機變數,在重複抽樣中取固定值
③解釋變數x在所抽取的樣本中具有變異性,而且隨著樣本容量的無限增加,解釋變數x的樣本方差趨於乙個非零的有限常數。
對隨機干擾項的假設:
④隨機誤差項u具有給定x條件下的零均值、同方差以及不序列相關性。
⑤隨機誤差項u與解釋變數x之間不相關
⑥隨機誤差項服從零均值、同方差的正太分布。
以上假設也稱為線性回歸模型的經典假設;而前4個假設也稱為高斯馬爾科夫假設。
●常見的估計方法有3種:
普通最小二乘法(ols)
最大似然法(ml)
矩估計法(mm)
四、最小二乘估計量的統計性質
●估計量的統計性質:
前3個準則也稱為有限樣本性質,或者小樣本性質。擁有這些性質的估計量稱為最佳線性無偏估計量(blue)
後3個準則稱為估計量的無限樣本性質或大樣本漸進性質。如果有限樣本情況下不能滿足估計的準則,則應該擴大樣本容量,考察引數估計量的大樣本性質。
五、引數估計量的概率分布及隨機干擾項方差的估計
●為了達到對所估計引數精度測定的目的,還需進一步確定引數估計量的概
率分布。
●在一次抽樣中,引數的估計值與真值的差異有多大,是否顯著,這就需要進一步進行統計檢驗,主要包括擬合優度檢驗、變數的顯著性檢驗及引數的置信區間估計。
一、擬合優度檢驗
●擬合優度檢驗,顧名思義,是檢驗模型對樣本觀測值的擬合程度。
●有人也許會問,採用普通最小二乘法進行估計,已經保證了模型最好地擬合了樣本觀測值,為什麼還要檢驗擬合程度呢?
最小二乘的確是擬合最好地,但我們也要找出擬合程度有多大。
●可決係數r2統計量:
tss為總離差平方和,ess為回歸平方和,rss為殘差平方和。
檢驗模型的擬合優度,稱r2為可決係數(coefficient of determination)。顯然,在總離差平方和中,回歸平方和所佔的比重越大,殘差平方和所佔的比重越小,回歸直線與樣本點擬合得越好。如果模型與樣本觀測值完全擬合,則有r2=1。當然,模型與樣本觀測值完全擬合的情況很少發生,r2=1的情況較少。但毫無疑問的是該統計量越接近於1,模型的擬合優度越高。
二、變數的顯著性檢驗
●變數的顯著性檢驗,旨在對模型中被解釋變數與解釋變數之間線性關係是否顯著成立作出判斷,或者說考察所選擇的解釋變數是否對被解釋變數有顯著的線性影響。
●變數的顯著性檢驗所應用的方法是數理統計學中的假設檢驗。
三、引數的置信區間估計
●假設檢驗可以通過一次抽樣的結果,檢驗總體引數可能值的範圍,但它並沒有指出在一次抽樣中樣本引數值,到底距總體引數的真值有多近。往往我們要構造乙個以樣本引數的估計值為中心的「區間」,來考察它以多大的可能性包含著真實的引數值。
●如何才能縮小置信區間?
①增大樣本容量n
②提高模型的擬合優度
●**在更大的程度上說是乙個區間估計問題,我們得到的僅是**值的乙個估計值,**值僅以某乙個置信度處於該估計值為中心的乙個區間裡。
●對於被解釋變數y的總體均值e(y0)與個別值y0的**區間,有:
①樣本容量n越大,**精度越高,反之**精度越低。
②樣本容量一定時,置信帶的寬度在x的均值處最小,在其附近進行**(插值**)精度高;x越遠離其均值,置信帶越寬,**精度將降低。
計量經濟學 一元線性回歸 估計量與估計值
估計量與估計值的區別 估計量 我的理解 估計量是法則,通常表示為一種表示式,衡量公式,是一種引數估計法,又叫引數估計量.估計量是用於估計總體引數的隨機變數,一般為樣本統計量。如樣本均值 樣本比例 樣本方差等。例如 樣本均值就是總體均值的乙個估計量。個人認為維基百科的定義最好,解釋了它的應用 估計量 ...
機器學習之一元線性回歸(python實現)
1.確定假設函式 如 y 2x 7 其中,x,y 是一組資料,設共有m個 2.誤差cost 用平方誤差代價函式 3.減小誤差 用梯度下降 1.初始化資料 x y 樣本 learning rate 學習率 迴圈次數loopnum 梯度下降次數 2.梯度下降 迴圈 迴圈loopnum次 1 算偏導 需要...
學習筆記之一口氣讀懂經濟學
一口氣讀懂經濟學 豆瓣 入門篇 開啟你的經濟學之旅 人是利己且具有理性的嗎 理性經濟人 撥開伊拉克戰爭的迷霧 稀缺性 還有什麼物品不能用於買賣 商品 鄭州理髮店收費1.2萬元的背後 價值與 我們購買的究竟是什麼 使用價值 經濟學的永恆話題 需求與供給 用石頭也可以買東西 貨幣 皮洛士的勝利 成本 進...