根據閱讀《資料分析師養成寶典》及個人理解後所得。
明確業務目標;
資料準備;
資料指標與分析;
撰寫分析報告;
了解必須的業務資訊,明確問題型別,因為不同的問題型別,要解決的問題不同。
問題型別
必解決的問題
可延伸的問題
描述類發生了什麼事
無因果類
發生了什麼事,為什麼會發生
無**類
發生了什麼事,未來會如何發展
為什麼會發生
諮詢類發生了什麼事,該如何應對
為什麼會發生,未來會如何發展
目標是識別出異常的資料,將其處理成可使用的資料,故分為兩個環節,第乙個是識別異常資料的資料探索,第二個是處理資料的資料清洗。
目的是識別出異常資料,主要有缺失值,異常值,重複值三類。以下介紹各型別的識別方法:
字段值為null即為缺失;
由業務規則設定在什麼範圍內為異常值;
3σ原則,即可靠性95%以內;
箱線圖,根據人眼直觀感受;
一般確定唯一字段是否有重複值即可;
目的是將異常資料處理成可用資料。
最優先:根據業務規則進行填充;
優先:當缺失值佔比小於1%時,可考慮直接剔除記錄;
用值填充(眾數>中位數>>均值);
由其它字段分析,找到與該條記錄最相似的且該字段有值的記錄,用該記錄的值來填充;
對於時序型記錄,可考慮用視窗平均值填充;
當成缺失值處理;
確定**,一般去重即可;
資料指標是指根據對業務目標的理解,確定出影響業務的指標有哪些,顆粒度如何;
資料分析是指分析出哪些指標會影響到業務;
兩者是乙個相結合的步驟。
此步驟有兩種分析方法,分別對應不同的問題:
維度遍曆法:用於解決新問題;
關鍵維度分析法:用於解決已確定關鍵維度的老問題;
進行各個維度的單變數分析,一般是描述性結果,僅用於了解專案的背景;
進行兩兩維度之間的多變數分析,一般是描述性結果,僅用於了解專案的背景;
進行聚類分析,不僅可用於描述專案的背景,還可用於解決諮詢類問題;
類似於維度遍曆法,只是只處理那些之前被確認是重要的維度;
需要先將資料處理成可以直接用來分析的專家資料來源,再將資料轉化為指標用於分析業務;
獲取專家資料來源,需進行資料統一格式化:
歸一化;
標準化;
歸約(減少維度來壓縮資料量,進而減少計算量);
資料變換(將有偏轉為無偏,將顆粒度轉化為業務需要的顆粒度);
專家資料轉化為指標:
根據需要進行建模;
評估模型效果,知道模型可用;
乙個完整的分析報告,包含四個結構:背景,目標,分析結論 —— 分析思路 —— 分析主體 —— 結論與建議。
報告的背景;
報告的目的;
報告的結論;
以 目標-分解目標-細分目標-相關因素-因素影響力-影響力驗證-(背後的現象)-目標決策 的邏輯說明即可;
跟分析思路類似,區別在於說明具體是如何做的,並擺出資料;
跟 報告的結論 類似,但是更為細化的說明;
目標 - 現狀 - 差異 :細分區域1 - 誰的責任 - 該如何做;細分區域2 - 誰的責任 - 該如何做;…
通用返回 通用資料分析入門案例
資料分析模組 1 功能綜述 該部分可以實現將使用者的csv檔案進行一系列資料分析並且返回相應的分析結果。這部分主要的分析包括返回資料主要屬性,相關性資訊 熱力圖,特徵分布散點圖 密度圖,預設值統計和補全,統計偏值並歸正,生成詞云等,將這些在後台分析出來的資料 等返回給使用者,實現乙個基本的csv檔案...
資料分析報告怎麼寫(上)
大資料和人工智慧迅猛擴充套件的時代,很多的企業崗位都需要進行資料分析。對於資料分析行業來說,做好資料分析是本職工作,不過在做好資料分析工作之後還需要會寫出乙份清晰明了的資料分析報告。資料分析報告可以體現出乙個資料分析師的綜合素質,那麼資料分析報告到底應該怎麼寫呢?下面好好看看!一般來說,資料分析報告...
資料分析報告格式zz
分析報告的輸出是是你整個分析過程的成果,是評定乙個產品 乙個運營事件的定性結論,很可能是產品決策的參考依據,既然這麼重要那當然要寫好它了。我認為乙份好的分析報告,有以下一些要點 首先,要有乙個好的框架,跟蓋房子一樣,好的分析肯定是有基礎有層次,有基礎堅實,並且層次明了才能讓閱讀者一目了然,架構清晰 ...