比較全面的講解了t檢驗,包含單邊和雙邊的t分位數表
這是今天看一些網頁摘錄的有用的內容:
模型估計出來後,我們要回答的問題是:
我們的模型擬合程度如何?或者說,這個模型對因變數的解釋力如何?(r2)
整個模型是否能顯著**因變數的變化?(f檢驗)
每個自變數是否能顯著**因變數的變化?(t檢驗)
r-squared:擬合度檢驗,是對已製作好的**模型進行檢驗,比較它們的**結果與實際發生情況的吻合程度,越大越好,最大值1
adj. r-squared:調整的r^2和r^2的值的評價,要根據你研究的目的確定。如果你做出來的模型主要是用於**,調整的r^2和r^2的值為0.1就太低了,國際上一般標準在0.4左右;如果你做的模型主要是用於評價某乙個因素或幾個因素對某特定因素的影響,且回歸係數的t檢驗也是顯著的,那還勉強可以,但建議調整一下模型,盡量提高r^2和r^2的值,調整的r^2和r^2的值太低說明模型解釋能力不好,有違建模的初衷。調整的r^2和r^2的值過低,有以下三種可能:模型中的解釋變數或控制變數沒有選擇好,沒有抓住主變數;模型中可能存在異方差、多重共線和自相關等情況;模型的樣本量不夠。
f-statistic:t檢驗可以檢驗各個回歸係數顯著性,f檢驗用來檢驗總體回歸關係的顯著性。對模型整體的顯著性可以通過f統計量來看,結果顯示的f統計量對應的p值(prob (f-statistic):)顯著小於0.05(0.05是顯著性水平,也可以選取0.01),說明模型整體是顯著的,它的顯著性說明被解釋變數能不能由這些解釋變數進行解釋,f檢驗是對整體的檢驗,f檢驗的通過不代表每乙個解釋變數是顯著的。各解釋變數聯合起來對被解釋變數有顯著的線性關係,並不意味著每乙個解釋變數分別對被解釋變數有顯著的線性關係。
利用t檢驗做出的結論並不是百分之百正確的,仍有很小的機率會犯錯誤。對於上面的例子,有些人會認為1%的概率已經很小了,可以拒絕原假設,還有些人會認為1%的概率雖然很小,但不足以拒絕原假設。為了解決這個問題,統計學家們提出了乙個閾值,如果犯第一類錯誤的概率小於這個閾值,就認為可以拒絕原假設,否則認為不足以拒絕原假設。這個閾值就叫α。p>|t|應該是拒絕原假設錯誤的概率,小於0.05,說明錯誤的概率小於0.05,原假設可以拒絕;
t值等於係數除以標準誤,t值和p>|t|是乙個意思,都是看回歸結果是否顯著,p>|t|越小越顯著,對應的是10%、5%、1%水平顯著.若是零,說明,在1%水平上都顯著.
研報中,t=2原因(當樣本量大於30後,p=0.05,t絕對值大於2,就認為回歸係數顯著異於0),以下是乙個其他方面的例子:
現在,讓我們嘗試引入α,用另一種流程解決例1:
建立原假設和備擇假設
h0:μ⩾20
h1:μ<20
確定α令α=0.05(α的值通常為0.01,0.05,0.1,視具體問題而定)
確定用於決策的拒絕域
在確定了α和t統計量自由度(根據樣本容量可以求出,在這個例子中,自由度為[樣本容量-1])的前提下,我們可以通過查詢t分位數表,找出「拒絕域」,如果t統計量落入拒絕域內,就拒絕原假設,否則接收原假設。
根據t雙邊分位數表,我們查出當自由度為30時,|t|>2.042的概率為0.05,因此,拒絕域為
檢視樣本結果是否位於拒絕域內
將樣本均值和樣本標準差帶入t統計量計算公式,得出t=6.573,落入拒絕域內
做出決策
拒絕原假設h0,接受備擇假設h1,認為樣本均值與總體均值差異顯著
每個變數的意思:
上邊的:
r-squared:擬合度檢驗,
直線與原資料的擬合程度,回答
我們模型
的擬合程度如何
,或者說,這個模型對因變數的解釋力如何
,越大越好,最大值1;
adj. r-squared:調整的r^2和r^2的值的評價;
f-statistic:t檢驗可以檢驗各個回歸係數顯著性,f檢驗用來檢驗總體回歸關係的顯著性
,回答整個模型是否能顯著**因變數的變化?(f檢驗)
;對模型整體的顯著性可以通過f統計量來看,結果顯示的f統計量對應的p值(prob (f-statistic):)顯著小於0.05(0.05是顯著性水平,也可以選取0.01),說明模型整體是顯著的,它的顯著性說明被解釋變數能不能由這些解釋變數進行解釋,f檢驗是對整體的檢驗,f檢驗的通過不代表每乙個解釋變數是顯著的。各解釋變數聯合起來對被解釋變數有顯著的線性關係,並不意味著每乙個解釋變數分別對被解釋變數有顯著的線性關係。
p>|t|應該是拒絕原假設錯誤的概率,小於0.05,說明錯誤的概率小於0.05,原假設可以拒絕;t值等於
係數均值
除以標準
差,t值和p>|t|是乙個意思,都是看回歸結果是否顯著,p>|t|越小越顯著,對應的是10%、5%、1%水平顯著.若是零,說明,在1%水平上都顯著.
下邊的:
dw=2,表示無自相關
dw=4,表示完全負自相關
dw=0,表示完全正自相關
dw在0-2之間說明存在正自相關
dw在2-4之間說明存在負的自相關
一般認為,dw值在1.5-2.5之間即可說明無自相關現象
計算ic值時:輸入為行業和因子權重,輸出為因子值,將輸入和輸出進行ols線性回歸;
計算結果中有dw檢驗的結果,這個結果可以判斷殘差是否具有相關性;
取殘差計算ic值
的原因以及要檢驗殘差相關性的原因:
因子載荷包含市值和行業因素,不同行業不同市值直接比較不具有可比性,所以選擇資料擬合後的殘差,消除市值和行業因素的影響,還要測試殘差的相關性,有相關性說明主要因素沒有完全提取出來,需要進一步提出主要影響因素。
2.arque-bera檢驗基於資料樣本的偏度和峰度,評價給定資料服從未知均值和方差正態分佈的假設是否成立,這裡拒絕原假設,也就是殘差不服從clm經典線性模型中mlr.6正態分佈假設。
2018-7-12
金融量化之tushare模組的使用
tushare是乙個著名的免費 開源的python財經資料界麵包。其官網主頁為 tushare 財經資料界麵包。該界麵包如今提供了大量的金融資料,涵蓋了 基本面 巨集觀 新聞的等諸多類別資料 具體請自行檢視官網 並還在不斷更新中。tushare可以基本滿足量化初學者的回測需求 環境安裝 pip in...
金融量化分析
是股份公司發給出資人的一種憑證,的持有者就是股份公司的股東。上市 ipo 企業通過 交易所公開向社會增發 以募集資金 的作用 的分類 按上市地區分類 市場的構成 影響股價的因素 買賣 a股 交易日 周一到周五 非法定節假日和交易所休市日 漲停 跌停限制 購買方式 市價單 限價單 金叉 短期 上穿長期...
金融與量化投資
按業績分類 藍籌股 資本雄厚 信譽優良的公司的 國企 茅台 st股 特別處理 連續兩年虧損或每股淨資產低於 面值 樂視 按上市地區分類 a股 中國大陸上市,人民幣認購買賣 t 1,漲跌幅10 b股 中國大陸上市,外幣認購買賣 t 1,t 3 h股 中國香港上市 t 0,漲跌幅不設限制 n股 美國紐約...