資料分析 ARIMA方法建模步驟總結

2021-09-21 05:40:55 字數 1140 閱讀 7912

arima模型適用於非平穩時間序列資料,其中的i表示差分的次數,適當的差分可使原序列成為平穩序列後,再進行arima模型的建模。

其建模步驟與arma模型類似,分為5個步驟:

平穩: 通過差分的手段,對非平穩時間序列資料進行平穩操作。

定階: 確定arima模型的階數p, q。

估計: 估計未知引數。

檢驗: 檢驗殘差是否是白雜訊過程。

**: 利用模型**。

對應的,在商業領域,時間序列**應遵循如下建模流程。

步驟1: 這是必需的,如果不看時間序列的圖形,就不能確定是否有季節性。可能有人認為,既然sarimax函式的功能可以涵蓋arima函式,那就可以統一使用sarimax函式遍歷所有引數得到最優模型。但是這樣做是不可取的,因為sarimax函式的引數過多,模型的估計結果不穩定,因此如果資料沒有季節行,應盡量選擇arima函式進行估計。

步驟2: 引數選取範圍在(0,1,2)中即可,很少有引數超過2的情況,即使真的超過2,第3階的資訊也很少,可以忽略。實在有問題,還可以在步驟4中通過**參差的情況判斷是否擴大搜尋空間。選取最優模型的依據為aic或bic統計量。aic統計量選取的模型較大,即模型引數較多;bic統計量選取的模型較小,即模型引數較少。不過絕大部分情況下兩個統計量得到的模型是一樣的。

步驟3: 使用上一步得到的最優模型進行重新模型估計。模型估計好,可以檢視模型的引數。本步驟並沒有進行時間序列的平穩性校驗,這有兩個考慮: 一是平穩性檢驗的方法眾多,statsmodels中提供的adfulle函式其實是聊勝於無,使用者不大;二是目前統計學界提供的平穩型檢驗方法的勢(power)都不高,也就是說檢驗結果不那麼有用處。實際上相關係數為0.9以上的ar(1)和arima(0, 1, 0)是不能通過平穩型校驗區分開的。因此索性不做平穩型檢驗,僅依靠aic或bic統計量來判斷最優模型即可。

步驟4: 該步驟目的是確認模型正確性。如果參差序列的前幾階(比如5階)自相關,偏自相關函式沒有顯著的,則說明已經是最優模型。統計學參考書中會使用dw檢驗(德賓-沃爾森檢驗),q-q檢驗,q檢驗,其實和檢視自相關函式區別不大。

步驟5: 本步驟中,如果之前資料取了自然對數,則在使用模型**後,要對資料取自然指數。

資料分析 建模評價

模型搭建 模型評估 1 模型搭建 處理後的資料就是建模資料,下一步是選擇合適模型。模型選擇之前需要知道資料集最終是進行監督學習還是無監督學習。模型的選擇一方面是通過我們的任務來決定的,另一方面可以根據資料樣本量以及特徵的稀疏性來決定,開始嘗試使用乙個基本的模型來作為其baseline,進而再訓練其他...

大資料分析步驟及分析方法詳解

1 識別目標需求 首先必須明確資料分析的目標需求,從而為資料的收集和分析提供清晰的方向,該步驟是資料分析有效性的首要條件。2 採集資料3 資料預處理 對資料進行必要的預處理,常用的資料預處理方法包括 資料整合 資料清洗 資料去冗餘。4 資料探勘 資料探勘的目的是在現有資料基礎之上利用各類有效的演算法...

資料分析基本步驟

異常值處理 檢測 使用基於統計 距離 密度的方法進行異常值檢測 處理 刪除異常值或使用魯棒性強的模型 資料轉換 常見的檔案格式與格式轉換 json csv excel 資料操作 資料切片 資料去重 資料複製 資料離散化 等距離散化 等頻離散化 聚類離散化 資料標準化 z score標準化 loges...