時間序列規則
很多比賽都可基於對背景的理解和資料分析來獲取有用的規則因為可以被當作特徵,簡單高效,可解釋性高。在時間序列的相關比賽中,週期因子可能是更好的方案。
對於中位數、臨近資料等簡單統計量可以作為特徵,因為中位數穩健,均值當分布較符合正態分佈時可以使用,臨近資料在**較近的資料可以使用
對於支付資料、客流量資料、交通資料等時間序列都通常具有明顯的時間週期性。週期性是核心,一般要確定週期長度並且確定週期組成的元素。不過缺點是沒有考慮節假日和突發事件。
1.獲取週期因子。對於週期因子的獲取有兩種方式。一是除以周均值,然後按列取中位數。二是獲取每日(工作日或週末)的均值再除以整體均值。
2.**。需要乘以base,直接用最後一周的平均客流作為base。
3.對於下個月每一天的情況,需要獲取每日的均值,統計每日為周一到週日的頻次,然後基於星期週期因子獲得加權均值,根據因子和每日均值**。
時間序列概念
四大類影響因素(長期趨勢、迴圈波動、季節、隨機)
時間序列分解(加法模型、乘法模型、混合模型)
stl分解:最常用,週期+趨勢+隨機
指數平滑:
水平型->簡單指數平滑
斜坡型->holt兩引數指數平滑
含趨勢和週期->holt-winters三引數指數平滑
arima模型(整合移動平均自回歸模型)
在arma模型(移動平均自回歸模型)的基礎上使用差分法解決非平穩序列
建模流程:預處理->定階->建模->檢驗->**(檢驗通過方可進行**)
預處理:
是否純隨機序列(白雜訊序列):「平穩」,完全無序
box-pierce檢驗(大樣本)、ljung-box(小樣本)
定階:根據自相關係數圖和偏自相關係數圖,選擇合適的p和q
建模:在模型複雜度與模型對資料集描述能力(即似然函式)之間尋求最佳平衡
aic偏重擬合效果
bic對模型複雜度懲罰更重
bic有一條理論性質說如果正確模型在候選模型中則一定可以選到,aic沒有
模型檢驗:
顯著性:如果提取資訊充分,殘差不應含有任何資訊,即為白雜訊
殘差序列正態檢驗:資料量用ks檢驗(原假設殘差序列服從正態分佈)
Task02 時間序列規則
我感覺能寫好規則的人都很厲害,有一次拍拍貸的比賽,我隊友乙個規則的成績跑平了lgb的好多模型,直接進入複賽。還是這個隊友在cikm2019大規模推薦比賽中,用自己寫的規則進入前50,差點弄過了我的協同過濾。據我所知拍拍貸的第一可以用規則,機器學習以及nn都達到第一的分數。第一步 除以周均值,得到乙個...
序列規則執行器rules executor
1.操作型規則 abstractoperaterule 對輸入的資料進行加工處理.2.過濾型規則 abstractfilterrule 符合條件的通過,繼續執行後續的規則 否則丟棄,直接返回null.3.條件型規則 abstractconditionrule 符合條件的通過,繼續執行後續的規則 否則...
函式的執行規則
函式的執行規則 var fn fn 在棧記憶體中宣告變數 fn function fn 在堆中宣告函式 fn fn fn is not a function 1 函式在執行的時候,先去棧記憶體中尋找有fn的變數,再去堆記憶體中尋找對應的fn記憶體位址,如果找到,則執行,反之報錯 2 如果在棧記憶體中...