第 1 步:提問
你要麼獲取一批資料,然後根據它提問,要麼先提問,然後根據問題收集資料。在這兩種情況下,好的問題可以幫助你將精力集中在資料的相關部分,並幫助你得出有洞察力的分析。
第 2 步:整理資料
你通過三步來獲得所需的資料:收集,評估,清理。你收集所需的資料來回答你的問題,評估你的資料來識別資料質量或結構中的任何問題,並通過修改、替換或刪除資料來清理資料,以確保你的資料集具有最高質量和盡可能結構化。
第 3 步:執行 eda(探索性資料分析)
你可以探索並擴充資料,以最大限度地發揮你的資料分析、視覺化和模型構建的潛力。探索資料涉及在資料中查詢模式,視覺化資料中的關係,並對你正在使用的資料建立直覺。經過探索後,你可以刪除異常值,並從資料中建立更好的特徵,這稱為特徵工程。
第 4 步:得出結論(或甚至是做出**)
這一步通常使用機器學習或推理性統計來完成,不在本課程範圍內,本課的重點是使用描述性統計得出結論。
第 5 步:傳達結果
你通常需要證明你發現的見解及傳達意義。或者,如果你的最終目標是構建系統,則通常需要分享構建的結果,解釋你得出設計結論的方式,並報告該系統的效能。傳達結果的方法有多種:報告、幻燈片、部落格帖子、電子郵件、演示文稿,甚至對話。資料視覺化總會給你呈現很大的價值。
資料分析過程練習
讓我們通過對資料分析過程的每一步提問,來了解所有步驟。我們將使用來自 kaggle 的單車共享需求 競賽的資料。此資料集給出了自華盛頓特區實施「首都共享單車」計畫以來的兩年,自行車的每小時租金資料。下面是此資料前 5 行的螢幕截圖。注意: 此資料集做了輕微修改。
使用下表來幫助你回答第乙個問題。每個特徵都是資料集中的一列。
特徵描述
日期時間 datetime
小時 + 時間戳
季節 season
1 = 春季、2 = 夏季、3 = 秋季、4 = 冬季
假期 holiday
該天是否為假日
工作日 workingday
該天是否既不是週末,也不是假日
天氣 weather*
1、2、3、4(參見下面的描述)
溫度 temp
攝氏度溫度
環境溫度 atemp
"感覺"溫度(攝氏度)
濕度 humidity
相對濕度
風速 windspeed
風速遊客 casual
非註冊使用者使用共享單車的數量
會員 registered
註冊使用者使用共享單車的數量
總計 count
總使用次數
*天氣特徵關鍵字
1 = 晴朗、少雲、區域性多雲
2 = 薄霧 + 多雲、薄霧 + 碎雲、薄霧 + 少雲、薄霧
3 = 小雪、小雨 + 雷雨 + 散雲、小雨 + 散雲
4 = 大雨 + 冰粒 + 雷雨 + 薄霧、雪 + 大霧
習題 1/5
提問步驟
根據上面給出的有可能影響每小時租用自行車數量的變數資料,可以提出哪些相關問題?(可多選)
25%、50%、75%指的是四分位數(quartile)。
上面是表中的資料型別
在此圖中,有4列是 float - 浮點型,7列是 int - 整型,1列是object - 物件。其中datetime經過列印檢視,確定型別為 str - 字串。
習題 2/5
整理步驟
在繼續分析前,可以看到此 kaggle 單車共享資料有何需要解決的潛在問題?(可多選)
習題 3/5
探索步驟名詞解釋: day of week 星期幾 temp 溫度 humidity 濕度
計數與溫度散點圖,及下乙個問題的最佳匹配直線
習題 4/5
得出結論步驟
根據這個自行車租賃與溫度關係回歸圖表,如果溫度從 2 攝氏度公升至 30 攝氏度,你認為會有多少額外的自行車被租用?
習題 5/5
傳達結果步驟
下面的哪種方法能夠最有效地傳遞你從共享單車資料中得出的結論?
資料分析過程
1 明確分析目的 了解需求,明確資料分析的目的,才能有效的對之後資料的採集 處理 分析等指引方向。2 資料收集 按照需求收集相關資料的過程,為資料分析提供依據。3 資料處理 資料的採集 資料分組 資料計算 資料儲存 資料檢索等。資料處理就是從大量可能雜亂無章難以理解的資料中抽取出有價值的資料。處理需...
了解資料分析師,轉行資料分析師,成為資料分析師
有人說,資料分析師就是分析資料的人唄。有人說,資料分析師是從浩如煙海的資料中發掘價值的淘金者。有人說,資料分析師是對蒐集到的資料進行整理 分析,在依據所屬行業提出的要求進行研究 評估和 的人。有人說,資料分析就是在一些大資料裡面進行統計,歸納還有對這些資料進行挖掘,發現資料裡面的潛在價值 那麼到底什...
python資料分析003 資料的合併篩選排序
一.資料的合併 1.資料合併主要包括下面兩種操作 軸向連線 concatenation pd.concat 可以沿乙個軸將多個dataframe物件連線在一起,形成乙個新的dataframe物件。融合 merging pd.merge 方法可以根據乙個或多個鍵將不同dataframe中的行連線起來。...