CRISP DM分析方法和思路

2021-08-26 03:09:21 字數 1631 閱讀 1352

目錄

crisp-dm原理及原理圖

1.理解業務需求

2.資料理解 【理解業務,探索業務需求中的指標概念和影響因素】

3.資料準備【業務資料與分析資料格式不同,需要做轉換】

4 模組化 【選擇分析技術對資料分析計畫進行模組化】

5 評估【從業務角度評估結果】

6 部署【實現資料分析應用到業務中】

日常專案中的資料為來自於業務功能產生的基礎資料不適合直接用於資料分析。

這些基礎資料的顯著特點是獲取成本低,但是在分析應用前可能存在錯誤、所以需要做清理和變換

【crisp-dm是一種在嘗試和試錯中探索的過程】

用資料和視覺化頻繁的檢視資料和業務中的模式和知識,然後使用更正式的統計方法和資料來描述你獲取的知識模式。

crisp-dm分析原理圖:

【業務需求決定了分析的方向】明確業務需求和分析目標

明確what are you doing,why you are doing

1.1確定業務目標

1.2評估情況【清理資料來源來歷】【需求、約束及風險】

明確需要哪些資料,並明確地定義資料【格式和場景】

【這一步的作用:幫助自己了解哪些資料可用,使業務需求和實際的資料保持一致性,驗證業務需求是否可行,並細化實現指標和內容】

2.1收集原始資料   通過【資料在專案資源中的列表】,明確【資料的位置和獲取資料的方法】

2.2描述資料       明確【資料表面特性、資料格式和質量】充分利用資料字典

2.3探索資料    重點把握【資料整體趨勢及特殊子集】

2.4驗證資料質量   驗證內容【資料全,正確與否、是否有雜訊資料或異常值】等

方法:【通過資料字典、業務需求的資料定位、額外資料集、構建資料(原因、方法和規則)、用視覺化方式對資料進行探索、評估資料質量】

【基於選擇的資料和業務需求選擇分析方法、格式化資料、進行分析】

3.1選擇資料【考慮與業務需求的相關性、資料質量和技術約束等因素】

3.2清洗資料  【通過選擇、替換等方法提高資料質量】

3.3構造資料  【構造衍生屬性】

3.4整合資料  【同源資料合併和不同源資料合併】

3.5格式化資料  【根據業務需求對資料進行格式化】

4.1選擇建模技術 【業務理解階段,用到一些演算法模型】

4.2生成測試設計 【分離測試資料和訓練資料,定義模型結果驗證引數】

4.3建立模型 【列出引數和選擇值,評估模型】

5.1從業務角度評估結果

5.2審核過程 【是否有重要的因素被忽略】

5.3確定下一步 【驗證可行然後部署實施】

6.1計畫實施 【確定如何使用分析及挖掘結果來達到業務需求的目標】

6.2計畫的監控和維護 【資料分析實施的計畫應用到業務系統中,資料和結果反饋】

6.3最終的報告

6.4專案回顧總結

過程中出具的工作結果:

【出具的內容】

【分析問題的思維導圖、明確專案依據和目標(業務理解和指標細化)、根據資料字典進行資料分析、總結性的資料探索報告、分析計畫(維度和度量等指標確定和實現)、最終驗證報告、業務實現】

資料探勘1 方法學CRISP DM

crisp dm 模型為乙個 kdd knowledge discover in database 工程提供了乙個完整的過程描述。該模型將乙個kdd工程分為6個不同的,但順序並非完全不變的階段。在這第乙個階段我們必須從商業的角度了解專案的要求和最終目的是什麼,並將這些目的與資料探勘的定義以及結果結合...

每日分析思路

首先,分析 目前的情況,處於強勢上公升期,可關注起步 處於壓力位前期,可關注滯漲 處於壓力位後期,可關注滯漲 股或退出 處於強烈下降期,堅決離場 第二,分析各大板塊的漲幅情況,主要板塊有金融 電力 煤炭 房地產 金屬 醫藥 鋼鐵 農業 機械 電子 建設,熱門板塊現在有新能源 環保 新上海 廣東 百貨...

KMP(思路分析)

介紹 kmp演算法是在給定的一串字串中查詢是否有目標串。分析 1 一般解法 對於以上問題,假如用樸素演算法,我們容易想到 用目標串 長度為n 的第1個字元依次與給定串 長度為m 的第1個至最後乙個字元對齊匹配,直到找到目標串為止。這樣演算法複雜度是m n。2 kmp演算法 思路分析 kmp演算法通過...