這幾天對於時間序列的**,需要時間這一特徵值,月份,星期等等。對於這些時間序列特徵需要怎麼去刻畫和表示嗯?
one-hot方法
乙個直觀想到的方法就是one-hot法,但是仔細考慮一下,one-hot真的適合表示時間序列嗎?
one-hot適用於的特徵應該是分類特徵,而且不同類別之間的距離是沒有差別的,比如紅黃藍三種顏色,漢字等等用one-hot表示是很好的。但是對於時間序列,5點和6點跟18點之間的距離明顯是不同的,所以用one-hot來度量的話,會損失非常多的資訊。
數字表示
那麼第二種能想到的方法就是用數字去表示,比如1代表1點,4代表4點等等,但是面臨的乙個問題就是23點明明和0點距離很近,但是用這種方法會導致23點和0點距離太遠,造成一些誤差。
造成上述誤差的因素在於時間序列有週期性,比如一天的24小時,一周的7天等等,那麼我們將其做乙個轉換,將其轉換成週期變數即可
( co
s(2π
變數週期
),si
n(2π
變數週期
))
(cos(\frac), sin(\frac))
(cos(周
期2π變
量),
sin(
週期2π
變數)
)如上所示,將乙個時間變數變成乙個二維平面圓周上的點。這樣就能解決週期性因素。
top 6 errors novice machine learning engineers make
use of circular predictors in linear regression
從特徵表示到深度學習
最近一直在學習特徵表達和學習的理論基礎,從稀疏編碼到卷積神經網路,直到最近很火的深度學習,感覺有那麼些啟發。特此記錄一下學習新得。影象特徵的表達從開始的畫素表示,到後來畫素特徵組成的特徵描述子 sift,surf,hog等 都是為了尋找最有效的資訊表達,如何將特徵進行加工和處理得到更加深入層次的表示...
深度學習基本思想 分層的特徵表示(三)
假設我們有乙個系統 s,它有n層 s1,sn 它的輸入是 i,輸出是 o,形象地表示為 o等於輸入 i,即輸入 i經過這個系統變化之後沒有任何的資訊損失 呵呵,大牛說,這是不可能的。資訊理論中有個 資訊逐層丟失 的說法 資訊處理不等式 設處理 a資訊得到 b,再對 b處理得到 c,那麼可以證明 a和...
深度學習中的資料維度表示
只含有乙個數字的張量稱為標量 或 0 維張量 0d 張量 標量有 0 個座標軸,即 ndim 0。張量軸的個數又稱為它的秩。import numpy as np x np.array 12 x array 12 x.ndim 0乙個陣列稱作乙個向量,或 1d 張量。乙個向量只含有乙個座標軸 x np...