在開始資料分析之前,提出正確的問題和/或理解問題至關重要。以下是在深入分析之前需要提出的20個問題的列表:誰將使用分析結果的受眾?(董事會成員,銷售人員,客戶,員工等)
如何使用結果?(做出業務決策,投資產品類別,與**商合作,識別風險等)
觀眾對我們的分析有什麼問題?(能夠過濾關鍵細分,跨時間檢視資料以識別趨勢,深入細節等)
如何優先考慮問題以獲得最大價值?
確定關鍵利益相關者並獲得他們對有趣問題的意見
誰應該能夠訪問這些資訊?考慮保密/安全問題
誰將開發和維護報告?
每份報告都有哪些資訊?
目前以另一種格式存在哪些報告?現有報告可能會有哪些變化?
需要開發哪些etl或儲存過程?
滿足報告要求需要哪些資料庫增強功能?
每份報告何時交付?
資料所需的更新頻率是多少?確保貨幣
哪些資料來源可供使用?
我是否具有訪問分析所需資料所需的許可權或憑據?
每個資料集的大小是多少,我需要從每個資料集中獲取多少資料?
我對每個資料庫中的基礎表和模式有多熟悉?我是否需要與其他任何人一起理解資料結構
我是否需要所有資料進行更細粒度的分析,還是需要乙個子集以確保更快的效能?
由於差異,資料是否需要標準化?
我是否需要分析來自外部**的資料,這些資料位於我組織的資料之外?
原文:
資料分析之前程無憂(一)
這個是我們要爬取的 前程無憂 前程無憂的 是乙個動態 來的,單純去抓取是無法抓取的,所以我們得找到他的介面,開啟 按f12 選擇network選項卡 顯然這個就是我們需要的找到的介面了 根據他給出來的url介面 其中1是指頁數,然後就根據他有多少頁數就寫乙個for迴圈來進行疊加就好了 for i i...
python科學計算與資料分析
主要講解numpy庫的使用,重點是其中的一些函式我們不知道或者不怎麼了解他的具體用法,朋友們可以將本文當作numpy庫的較具體的的函式說明文件進行 1.array函式 將輸入資料 列表 元組 陣列或其他序列型別 轉換為ndarray。要麼推斷出 dtype,要麼顯式指定 dtype。預設直接複製輸入...
資料分析 資料分析的誤區
在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...