這真是乙個比較糾結的問題,網上很多關於資料集不平衡處理方法的技術,但是直面金融資料時間序列分析的?沒有?
我也沒有什麼資格可以評判什麼,這裡寫的就是乙個大四轉行學生對於這些問題的一些思考吧。。
1. 取樣
取樣方法是通過對訓練集進行處理使其從不平衡的資料集變成平衡的資料集,在大部分情況下會對最終的結果帶來提公升。
取樣分為上取樣(oversampling)和下取樣(undersampling),上取樣是把小種類複製多份,下取樣是從大眾類中剔除一些樣本,或者說只從大眾類中選取部分樣本。
隨機取樣最大的優點是簡單,但缺點也很明顯。上取樣後的資料集中會反覆出現一些樣本,訓練出來的模型會有一定的過擬合;而下取樣的缺點顯而易見,那就是最終的訓練集丟失了資料,模型只學到了總體模式的一部分。
上取樣會把小眾樣本複製多份,乙個點會在高維空間中反覆出現,這會導致乙個問題,那就是運氣好就能分對很多點,否則分錯很多點。為了解決這一問題,可以在每次生成新資料點時加入輕微的隨機擾動,經驗表明這種做法非常有效。
Python資料分析 時間序列 重取樣
目錄將時間序列從乙個頻率轉換為另乙個頻率的過程,且會有資料的結合。降取樣 高頻資料 低頻資料,例如 以月為頻率的資料轉為以年為頻率的資料 公升取樣 低頻資料 高頻資料,例如 以年為頻率的資料轉為以月為頻率的資料 重取樣 resample 建立乙個以天為頻率的timeseries,重取樣為按2天為頻率...
python資料分析之 時間序列二
將timestamp 轉換為period 通過使用to period 方法,可以將由時間戳索引的 series 和dataframe 物件轉換為以時期索引 rng pd.date range 1 1 2000 periods 3,freq m ts series randn 3 index rng ...
資料分析 金融量化分析
1.什麼是資料分析?資料的獲取 清洗 轉換 建模 2.分類與回歸 分類是有監督的,有標籤 應用 信用卡申請人風險評估,公司業務增長量 房價 原理 分類 將資料對映到預先定義的群或者類,演算法要求基於資料屬性值來定義類別,把具有某些特徵的資料項對映到給定的某個類別上 回歸 用屬性的歷史資料 未來趨勢,...