資料分析高階 DCIC競賽 task0準備工作

2021-10-24 09:20:20 字數 2519 閱讀 1667

學習資源

學習手冊:

賽事詳情:

共有三個部分的競賽

1)端午假期a城市交通網路擁堵識別及緩堵策略研究

需要具有從經緯度對映到路段的能力

2)a城市巡遊車與網約車與運營特徵對比分析

主要是對計程車和網約車的分布之類的對比,相對於第乙個賽題難度稍小

3)創意題

【城市巡遊車與網約車運營特徵對比分析】

【賽題說明】

計程車作為城市客運交通系統的重要組成部分,以高效、便捷、靈活等優點深受居民青睞。計程車每天的運營中會產生大量的上下車點位相關資訊,對這些資料進行科學合理的關聯和挖掘,對比在工作日以及休息日、節假日的計程車資料的空間分布及其動態變化,對計程車候車泊位、管理排程和居民通勤特徵的研究具有重要意義。

【賽題任務】

參賽者需依據賽事方提供的計程車(包括巡遊車和網約車)gps和訂單資料,

二是根據巡遊車和網約車的時空運營特徵,並嘗試對巡遊車與網約車的融合發展提出相關建議。在分析過程,參賽者必須用到但不侷限於提供的資料,可自行加入自有資料進行參賽,但需說明自帶資料**並保證資料合法合規使用。

在下面資料分析軟體中,r、sas、spss和stata在數學領域使用的較多,sql和pyhton在計算機領域使用的較多。在網際網路企業sql和python是最為常見的資料處理和分析軟體。

由於本次賽題的資料字段眾多,有經緯度、日期和訂單等複雜型別,因此比較建議使用python軟體進行分析,實現起來比較快速。當然如果想使用r或者sql來做資料處理也是可以的,但可能會更加費事一些

我們日常生活中充滿了各類資料,也有多種資料型別劃分方法:

不同型別的資料會有不同的資料儲存方法和統計方法,也需要不同型別的視覺化方法來完成。

資料視覺化方法有非常多種,具體可以根據資料型別、對比方法和展示方法進行細分:

(1)描述性資料分析

描述性資料分析(descriptive data analysis,dda)屬於比較初級的資料分析,常見的分析方法包括對比分析法、平均分析法、交叉分析法等。描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分布、以及一些基本的統計圖形

離散程度的描述性統計量

分布形態的描述性統計量

(2)探索型資料分析

探索性資料分析(exploratory data analysis,eda)主要的工作是:對資料進行清洗,對資料進行描述(描述統計量,圖表),檢視資料的分布,比較資料之間的關係,培養對資料的直覺,對資料進行總結等

探索性資料分析(eda)與傳統統計分析(classical analysis)的區別:

傳統的統計分析方法通常是先假設樣本服從某種分布,然後把資料套入假設模型再做分析。但由於多數資料並不能滿足假設的分布,因此,傳統統計分析結果常常不能讓人滿意。

探索性資料分析方法注重資料的真實分布,強調資料的視覺化,使分析者能一目了然看出資料中隱含的規律,從而得到啟發,以此幫助分析者找到適合資料的模型。「探索性」是指分析者對待解問題的理解會隨著研究的深入不斷變化。

(3)驗證型資料分析

驗證型資料分析(confirmatory data analysis, cda)根據資料樣本所提供的證據,肯定還是否定有關總體的宣告。

假設驗證的基本流程:

DCIC 資料分析學習 0 準備工作

學習主題 學習目標 資料分析 資料分析介紹 資料分析軟體 資料分析與資料型別 資料分析與視覺化方法 資料分析流程 描述型資料分析 集中趨勢的描述性統計量 離散程度的描述性統計量 分布形態的描述性統計量 探索型資料分析 驗證型資料分析 演算法分析真實場景 a城市巡遊 與網約 運營特徵對比分析 賽題簡介...

Spark高階資料分析

建立乙個自定義列表 如何建立乙個註腳 注釋也是必不可少的 katex數學公式 新的甘特圖功能,豐富你的文章 uml 圖表 flowchart流程圖 匯出與匯入 spark高階資料分析pdf版 你好!這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器,可以...

資料分析高階之路

近年來,資料分析大熱,各大培訓資料分析的課程如雨後春筍一般。那我們今天就來從乙個資料分析的工具出發,系統學習資料分析的相關課程。要學資料分析之前,至少要了解一下,做乙個資料分析師,到底需要哪些技能吧。事實上,學習任何技能都是這樣,以對應的崗位所需的技能來作為自己學習的嚮導,總歸是沒錯的。抗疫情,共成...