第一次天池大資料,廣東客流競賽

2021-07-08 12:34:10 字數 645 閱讀 7889

排名 168,成績72.93% 第一名82.9%

訓練資料

1 得到資料後匯入資料庫

2 統計資料中各個時段和各個線路的count數目 資料由一千萬變為一萬以內

3 統計6-21時的資料 資料條目再次降到5000左右

天氣資料

4 表中的年月日進行字元規整 替換成同一模式 為了和訓練資料表結合

5 天氣表中的中文字元進行數值化 這一過程很關鍵 作為資料輸入部分會有很大影響!!!

結合6 訓練資料表和天氣資料表進行結合篩選

7 進一步規整train_data和train_label 以及test_input資料 

8 匯出資料庫 匯出為txt檔案

9 讀入 matlab或是python進行演算法驗證 得到結果result_label 

10 result_label匯入資料庫合成想要的表再匯出

11 提交

方法1 第一天 將所有資料進行多元線性回歸做法 並不合適

2 第二天 將方法改為回歸樹進行**結果效果並不好 因為是在所有的資料基礎上進行的操作

3 第三天 將資料進行分時段** 分別**出6-21時16個時段的**量 去除了路線特徵

4 第四天 將資料進行節假日判斷 分別** 並且看到冬令時和夏令時的可能影響 分別訓練求解

大資料第一次作業 201806120017李佳杭

微博一天所產生的資料根據平均值計算在100 200mb 人,主要資料以文字資料,jpg和mp4為主。2.對物流行業進行大資料分析 以北斗 gps導航技術為基礎,物流管理部門或者應用可以使用北斗位置服務平台通過對同時產生的位置服務資訊 實時物流車輛資訊的採集,針對物流車輛的gps軌跡資料進行分析,提供...

1 大資料第一次作業

一 列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。元件1 hdfs,作用 分布式檔案系統,儲存是hadoop體系的基礎。元件2 mapreduce,作用 作為一種計算模型,用來大資料的計算。元件3 yarn,作用 改善mapreduce的缺陷,是另一種資...

第一次作業大資料概述

對比hadoop與spark的優缺點。spark是乙個快速 通用且可擴充套件的大資料分析引擎。spark生態系統已經演變成一系列子專案,包括sparksql spark streaming graphx mllib等。spark是乙個基於記憶體計算的大資料平行計算框架。spark基於記憶體計算,它改...