協方差矩陣和相關係數主要研究兩個連續變數的相似程度(相關性)
協方差公式:
協方差矩陣:
相關係數:cov(x,y)/(var(x)*var(y))
相關係數矩陣:
可以使用ljung-box方法進行檢驗。即box.test(data,type="ljung-box",lag=num)來檢驗,當p-value大於0.05時可以說明無自相關性。
無偏自相關圖:在自相關性的研究中,xt和它的k階滯後序列xt-k的相關性實際受到了xt-1.....xt-k+1的影響,偏自相關性就是消除了xt-1.....xt-k+1的影響侯的相關性結果的圖,r中用pcaf來計算。
如果乙個時間序列是有由某一隨機過程產生的,並且該隨機過程產生的時間序列滿足如下的條件:
1.均值是與時間t無關的,即任何k階滯後序列的均值均相同;
2.方差是與時間t無關的,即任何k階滯後序列的方差均形同;
當滿足以上三個條件後,則稱該時間序列是平穩的。從acf自相關圖上來看,如果acf成指數級別的衰減,則表示是平穩的。乙個服從正太分布的隨機序列就是平穩序列。
白雜訊:對於乙個平穩的時間序列,如果其
均值等於0並且無自相關性則該平穩的時間序列為白雜訊序列,標準的正態分佈和均勻分布都可以模擬出白雜訊序列。
滑動平均過程,通過把若干白雜訊做加權平均得到的,其公式如下:
yt=et + a1et-1 + a2et-2 + ... +aqet-q
上述公式為q階滑動平均過程,記為ma(q)
什麼樣的序列為ma序列:
1.自相關圖acf
若乙個序列的acf呈指數級衰減,q階以後(不包括q)的所有之後序列,其相關性係數均處於[-0.2,0.2]範圍內,我們稱此類圖形『滯後q階後截尾』
2.偏自相關圖pacf
所有之後序列的偏自相關係數逐步趨於0,與階數q無任何關係,我們稱此類圖形『拖尾』
當乙個平穩序列的acf和pacf分別呈現『截尾』和『拖尾』形態,則確定該序列為ma序列,並且可以通過acf的截尾滯後階數來確定q的大小。
引數a的確定,r語言中:
library(tsa)
mamodel = arima(data,order=c(0,0,2))
該行的輸出有a的值和該模型的複雜程度aic值
自回歸過程是使用序列本身作為變數,並對其進行加權平均得出。其公式如下:
yt= et + b1et-1 +b2et-2 + bpet-p
上述的公式為p階自回歸過程,記為ar(p)
什麼樣的序列為ar序列:
當乙個平穩序列的acf 和pacf分別呈現『拖尾』和『截尾』形態(與ma相反)時,則可以確定為ar序列,並可以通過pacf的滯後係數來確定p的大小。
引數b的確定,r語言中:
library(tsa)
mamodel = arima(data,order=c(2,0,0))
該行的輸出有b的值和該模型的複雜程度aic值
把滑動平均過程ma和自回歸過程ar進行疊加就組成了自回歸滑動平均混合過程arma,其模型的定義如下,記為arma(p,q)
yt= et + b1et-1 +b2et-2 + bpet-p - a1et-1 - a2et-2 - ... aqet-q
係數p和q的確定:
對於arma過程已經不能單獨通過觀察自相關圖和偏自相關圖來確定p和q了,因為他們已經重疊到一起了。
r中通過eacf函式來確定arma的p和q,判斷的方法如下圖所示:
注:當p和q不能明顯的確定時,則把可能的p和q代入模型做檢驗,再做
模型質量檢驗後,再分別比較其
殘差和acl值,根據這兩個再最終確定合理的p和q值。
模型arma是針對平穩序列來建模的,當序列為非平穩性序列時,很難使用ar,ma或者arma過程來建模。此時要對序列進行平穩化處理,並引入了差分階數d的概念。
如果乙個非平穩性指標資料data的d0階差分是乙個平穩序列,則可以使用arima(p,d,q)為其建模。其中d為差分階數,當經過差分階數為d的處理之後的序列滿足正態分佈(可以通過shapiro.test來檢驗)則可以確定出拆分階數d;p和q的確定方式同arma
主要針對殘差進行正態性檢驗和自相關性檢驗。
殘差滿足正態性,主要是為了殘差集中於某乙個數值,如果該值與0很接近,則它實際服從均值為0的正態分佈,即它是乙個白雜訊。
殘差滿足非自相關性,主要是為了在殘差中不再包括ar或者ma過程產生的序列。
正態性檢驗可以使用shapiro.test函式來檢查,當p-value>0.05時表明滿足正態分佈,該值越大越好,直到接近於1.
殘差的自相關性可以用函式tsdiag(model)來迅速檢驗。該函式會列出殘差的散點圖,自相關性acf檢驗和
box.test的檢驗值(pvalue大於0.05即滿足非自相關性)。
時間序列分析
時間序列資料分為平穩 寬平穩 和非平穩兩種。平穩序列中也包括隨機序列,即序列資料之間沒有任何相關性或記憶性,純隨機的,這種序列沒有挖掘分析的必要。純隨機序列也稱為白雜訊序列。序列中的隨機變數之間的相關係數r k 0,k不為 0 經過預處理若發現序列是平穩非隨機序列,則可用的模型為arma。ar模型是...
時間序列分析
觀察變數動態的變化,我們需要動態序列,也即是我們的時間序列。時間序列的要素是時間 資料,所要解決的問題即是時間序列所帶來的序列相關性的問題。四種變動 長期變動趨勢 季節變動趨勢 週期變動趨勢 不規則變動趨勢 第一種想象為單增的曲線 第二三種可以想象為週期變化的折線 第四種想象為白雜訊 疊加模型 四種...
時間序列分析
時間序列是按時間順序的一組數字序列。時間序列的特點 現實的 真實的一組資料,而不是數理統計中做實驗得到的。既然是真實的,它就是反映某一現象的統計指標,因而,時間序列背後是某一現象的變化規律。動態資料。時間序列建模基本步驟是 用觀測 調查 統計 抽樣等方法取得被觀測系統時間序列動態資料。根據動態資料作...