流程說明:
暫且總結為五步:1、確立挖掘目的,2、資料準備,3、數學建模,4、模型評估,5、模型應用。
第一步:確立挖掘目的,
確立業務目標 --> 對目標做簡單評估,確立所需要的資料型別,人力資源及風險等, ----> 確立資料探勘的目標 ---->制定實施計畫
第二步:資料準備
1)、資料選擇:白貓黑貓能抓老鼠就是好貓,只要第一步確立了目標, 奔著這個目標選擇各種與目標相關的資料,公司內部資料,外部行業資料,網際網路資料等。可以爬去公開**資料等。
2)、資料篩選:判斷資料是否有缺失,如果缺失確定填充缺失字段或者刪除缺失字段,資料型別一致性如日期時間,編碼格式。等
3)、資料轉換:對於結構化資料進行彙總匯出排序異常值處理等,非結構化資料進行分詞,情感分析,詞頻統計,去噪音等。
4)、資料優化:深入分析資料,主要清洗噪音資料。修改或刪除異類資料
第三步:數學建模
1)、技術選擇:根據自己技能選擇適合的模型
2)、構建模型:根據資料,構建模型,
3)、模型評估:根據測試如交叉驗證等測試結果,進行引數調優,並且評估各個模型,最終選擇最合適的模型。
第四步:結果評估
根據模型跑出的結果,結合第一步中資料探勘的目的。根據實際應用的情況,驗證模型是否適合解決實際問題。如果能夠解決,選擇最優的一套模型或者多套模型混合部署在業務應用系統。從而為實際問題服務,如果都沒能解決實際問題。返回重新調整模型或者重建。實踐是檢驗真理的唯一標準。
第五步:模型應用
上一步以說。如果有合適的模型。與業務系統對接。確立最終方案。do it !!!
資料探勘流程
下面是資料探勘流程 crisp dm 跨行業資料探勘標準流程 這是目前業界主流的 資料探勘流 程,其實本人覺得這也是統計學 建 模方式的語言模式,大家都是這麼做的,只是用個專門的流程會方便一些 1 業務理解 理解專案的目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步...
資料探勘流程
crisp dm cross industry standard process for data mining 即為 跨行業資料探勘過程標準 此kdd knowledge discovery in database 過程模型於1999年歐盟機構聯合起草.通過近幾年的發展,crisp dm 模型在各...
資料探勘流程
一 業務理解 主要任務是深刻理解業務需求,在此基礎上制定資料探勘的目標和實現目標的初步計畫。二 資料理解 收集資料,熟悉資料,識別資料的質量問題和探索引起興趣的子集。三 資料準備 從收集來的資料集選擇必要的屬性 因素 並按關聯關係將它們連線成乙個資料集,然後進行資料清洗 即空值及異常值處理 離群值剔...