資料探勘步驟(流程)

2021-08-07 14:55:46 字數 789 閱讀 5201

流程說明:

暫且總結為五步:1、確立挖掘目的,2、資料準備,3、數學建模,4、模型評估,5、模型應用。

第一步:確立挖掘目的,

確立業務目標 -->  對目標做簡單評估,確立所需要的資料型別,人力資源及風險等, ----> 確立資料探勘的目標  ---->制定實施計畫

第二步:資料準備

1)、資料選擇:白貓黑貓能抓老鼠就是好貓,只要第一步確立了目標, 奔著這個目標選擇各種與目標相關的資料,公司內部資料,外部行業資料,網際網路資料等。可以爬去公開**資料等。

2)、資料篩選:判斷資料是否有缺失,如果缺失確定填充缺失字段或者刪除缺失字段,資料型別一致性如日期時間,編碼格式。等

3)、資料轉換:對於結構化資料進行彙總匯出排序異常值處理等,非結構化資料進行分詞,情感分析,詞頻統計,去噪音等。

4)、資料優化:深入分析資料,主要清洗噪音資料。修改或刪除異類資料

第三步:數學建模

1)、技術選擇:根據自己技能選擇適合的模型

2)、構建模型:根據資料,構建模型,

3)、模型評估:根據測試如交叉驗證等測試結果,進行引數調優,並且評估各個模型,最終選擇最合適的模型。

第四步:結果評估

根據模型跑出的結果,結合第一步中資料探勘的目的。根據實際應用的情況,驗證模型是否適合解決實際問題。如果能夠解決,選擇最優的一套模型或者多套模型混合部署在業務應用系統。從而為實際問題服務,如果都沒能解決實際問題。返回重新調整模型或者重建。實踐是檢驗真理的唯一標準。

第五步:模型應用

上一步以說。如果有合適的模型。與業務系統對接。確立最終方案。do it !!!

資料探勘流程

下面是資料探勘流程 crisp dm 跨行業資料探勘標準流程 這是目前業界主流的 資料探勘流 程,其實本人覺得這也是統計學 建 模方式的語言模式,大家都是這麼做的,只是用個專門的流程會方便一些 1 業務理解 理解專案的目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步...

資料探勘流程

crisp dm cross industry standard process for data mining 即為 跨行業資料探勘過程標準 此kdd knowledge discovery in database 過程模型於1999年歐盟機構聯合起草.通過近幾年的發展,crisp dm 模型在各...

資料探勘流程

一 業務理解 主要任務是深刻理解業務需求,在此基礎上制定資料探勘的目標和實現目標的初步計畫。二 資料理解 收集資料,熟悉資料,識別資料的質量問題和探索引起興趣的子集。三 資料準備 從收集來的資料集選擇必要的屬性 因素 並按關聯關係將它們連線成乙個資料集,然後進行資料清洗 即空值及異常值處理 離群值剔...