為什麼要平穩?
原因一:時間序列資料的資料結構與傳統的統計資料結構不同。最大的區別在於,傳統隨機變數可以得到多個觀測值(比如骰子點數,可以反覆擲得到多個觀測值,忽略時間的差異)。而時間序列資料中,每個隨機變數只有乙個觀測值(比如設**價為研究的隨機變數,每天只有乙個**價,不同日子的**服從的分布不同,即考慮時間的差異)。這樣一來,每個分布只能得到乙個觀測值,數目太少,無法研究分布的性質。但是通過平穩性,從不同日期的分布之間發現內在關聯,緩解了由於樣本容量少導致的估計精度低的問題。
原因二:研究時間序列的最終目的是,**未來。但是未來是不可知的,我們擁有的資料都是歷史,因此只能用歷史資料來**未來。但是,如果過去的資料與未來的資料沒有某種「相似度」,那這種**就毫無道理了。平穩性就是保證這種過去與未來的相似性,如果資料是平穩的,那麼可以認為過去的資料表現出的某些性質,未來也會表現。
什麼是嚴平穩?
對於乙個時間序列,其中每個資料x都是隨機變數,都有其的分布(如圖)。
取其中連續的m個資料,x1到xm,則可以構成乙個m維的隨機向量,(x1,x2,...,xm)
由於單獨的每個隨機變數x都有各自的分布,那麼組合成乙個m維隨機向量後,這個多維向量整體就有乙個「聯合分布」。
嚴平穩的本質就是,這種聯合分布不隨著時間的推移而變化。
也就是說,取資料時,任意連續取出的m個資料(無論是從x1取到xm,還是從xt取到xt+m),他們組成的多維向量的聯合分布都是相同的。
此時,再放寬乙個條件,讓這個m的取值也任意。
即無論這取資料的視窗設定為多寬,只要連續取相同數目個資料,他們構成的聯合分布都是相同的。
比如,(x1,x2,x3)與(x6,x7,x8)有相同的3維聯合分布,(x1,x2,x3,x4)與(x6,x7,x8,x9)有相同的4維聯合分布。
綜上,符合上述性質的時間序列,是嚴平穩的。
有了嚴平穩為什麼還要有寬平穩?
很多情況下,我們無從得知這些隨機變數的分布到底是什麼樣子。
我們觀測得到的資料,只是服從某種未知分布的隨機變數的一種取值。
既然連單個隨機變數的分布都難以求出,就更不用說求由一堆隨機變數組成、多維隨機向量的聯合分布有多困難了。
因此嚴平穩雖然是一種保證過去與未來的資料「相似」很棒的方式,但過於理想化,實際上很難檢驗乙個時間序列的嚴平穩性。
於是只能放寬條件,因而產生了「寬平穩」的概念。
什麼是「k階矩」?
「矩」是隨機分布的一種特徵數。特徵數,顧名思義,反映了乙個隨機分布的某種特徵。比如「數學期望」反映了,符合某種分布的隨機變數的取值,總是在某個值周圍波動;而「方差」則反映了,這種波動的大小程度。
矩分為原點矩和中心矩,其中一階原點矩就是數學期望,二階中心矩就是方差。
通常2階以內(含2階)稱為低階矩,2階以上稱為高階矩。
但是這兩者之間有相互推導的公式,知其一就可推其二,因此一般只稱「矩」。
其中,隨機變數的k階原點矩的定義為,隨機變數的k次方的數學期望,即e(xk)。平時所說的「k階矩存在」,就表現為這個數學期望不是無窮(也就是小於無窮),這與「極限存在」的定義是同理的。
值得注意的是,如果乙個隨機變數的某高階矩存在,那麼低階矩也一定存在。因為|x|k-1≤|x|k+1。
嚴平穩中由於聯合分布相同,故各階矩也相同。
什麼是寬平穩?
寬平穩性是使用序列的特徵統計量來定義的,它認為序列的統計性質,主要由其低階矩決定。
當時間序列滿足以下三個條件時:
第乙個條件,任意時刻二階矩都存在。
第二個條件,隨機變數的期望(一階矩)不隨時間的推移而改變。說白了就是,均值μ不隨時間t改變。
第三個條件,兩個時點的隨機變數之間的自相關係數,只與這兩個時點的時間差有關,而不隨時間的推移而改變。說白了就是,只要視窗寬度(即兩時點的時間差)固定,則自相關係數是唯一。
就被稱為是寬平穩的。
由於定義涉及到的幾個條件,寬平穩也被稱為協方差平穩,或二階平穩。
從自相關係數與時間t無關能得到什麼結論?
由於自相關係數只跟視窗寬度l(lag的首字母,表示用於計算自相關性而取的、兩個資料之間的時間差)有關,與時間t無關,因此大可以設乙個函式acf(autocorrelation function)表示這個視窗寬度與自相關係數之間的函式關係。其自變數為滯後期數(即視窗寬度,用l表示),因變數為自相關係數(用ρ表示)。
根據協方差的定義,ρl中,分子為cov(xt,xt-l),分母為sqrt。由於【【【【記得寫完】】】】
平穩性的一些結論
如果乙個時間序列平穩,則有:
均值是與t無關的常數。即不同時點的分布中,隨機變數都是圍繞同乙個值波動的。表現在時序圖(橫軸為時間軸,縱軸衡量隨機變數取值)中,即圖線整體是圍繞某個水平線波動的(類似於政經裡**圍繞價值上下波動那個圖)。
方差是與t無關的常數。這在定義裡並沒有顯然地體現,但是由於定義給出自相關係數只與視窗寬度有關,而與視窗位置即時間t無關,所以大可以乾脆取個寬度為0的視窗,於是本來相隔乙個視窗寬度的兩個時點資料之間的相關性,就變成了同乙個時點資料自己和自己之間的相關性,自己和自己,當然相關係數為1。
協方差是常數。
嚴平穩與寬平穩之間的關係?
嚴平穩本質上是對時間序列的分布進行限制,而寬平穩的本質是對低階矩進行限制。
由於寬平穩比嚴平穩的條件更為寬鬆,因此通常情況下,嚴平穩能推導出寬平穩,但寬平穩不能反推嚴平穩。但有特例。
因為寬平穩時,需要滿足二階矩存在的條件。而嚴平穩不需要滿足二階矩存在。
因此,不存在二階矩的嚴平穩序列,無法滿足寬平穩。例如嚴平穩的柯西分布序列,就不符合寬平穩(一二階矩不存在,因此無法驗證寬平穩)。
所以,只有二階矩存在時,嚴平穩序列才滿足寬平穩。
特例:當序列服從多元正態分佈時,寬平穩序列一定能推導出嚴平穩。
原因在於,正態時間序列的二階矩平穩,等價於分布平穩(其密度函式表明,n維正態分佈僅由其均值向量和自協方差矩陣決定)。
正態時間序列
如果乙個時間序列,從中取出任意n個(有限個)隨機變數,組成的n維隨機向量,都服從n維正態分佈,則稱之為正態時間序列。即上方的特例。
時間序列平穩性的統計檢驗
在實際應用過程中,通常需要對時間序列進行平穩性判斷,觀察乙個序列是否存在某種趨勢,以及各時間間隔內折線是否存在 明顯的差異。下面介紹一下常用的幾種檢驗方法。1 繪製時間序列散點圖。該方法只能直觀 粗略的看序列是否存在明顯的趨勢。2 daniel檢驗法。主要用於觀察序列是否存在著趨勢,不檢測自相關。該...
python時間序列平穩性 時間序列d的平穩性
我正在嘗試使用python中的arima建模來建模時間序列資料。我對預設資料序列使用函式statsmodels.tsa.stattools.arma order select ic,得到p和q的值分別為2,2。如下dates pd.date range 2010 11 1 2011 01 30 da...
時間序列學習筆記(2)平穩性
平穩性檢驗 非平穩序列確定性分析 加權平滑法 指數平滑法 純隨機檢驗 幾個定義點 確定趨勢or隨機趨勢,這裡隨機趨勢是很不好把把握的,認為不是隨機散亂的,便認為存在一種趨勢,而確定趨勢是可以找尋具體函式的。趨勢,迴圈,在一段時間內有規律的運動,像我們理解中的一年四季 隨機因素 除趨勢和季節因素 引起...