資料探勘流程:
1、spss的crisp-dm模型:
商業理解 資料理解 資料準備 建立模型 模型評估 模型實施
商業理解:(不要把自己寫的太死)
確定業務目標(評估指標:準確率等)
專案可行性分析(已有資源、條件;目前風險等)
確定挖掘目標(與上一條繫結)
提出專案計畫(計畫、工具都要包含在內)
例子:電信流失使用者挽留
業務目標:增存並重、挽留使用者
可行性報告分析:查詢率等
挖掘目標:
專案計畫:
資料準備:(包含於資料預處理)
資料選擇:
資料清洗:
資料建立:
資料合併:
資料格式化:
建立模型:
選擇建模技術:選擇演算法與引數
測試方案設計:
模型訓練:
模型測試評估:根據指標進行判斷,需達到指標
模型評估:(分類演算法:混淆矩陣、auc、roc曲線、查詢率、查準率;回歸演算法:協方差、方差、輪廓係數等;聚類演算法:相似度、相異度)
結果評估
過程回顧
準備下一步工作(好);商業理解(不好)
模型實施:
實施計畫:
監控和維護計畫:
作出最終報告:
專案回顧:
更新迭代:
在關聯模型中,lab可能會考apriori演算法
2、sas的semma資料探勘流程:
資料探勘筆記
標籤 空格分隔 特徵提取 實習期間參加了ccf大資料比賽,總結期間用到的一些資料提取想法 alter變更有11種型別,將變更型別進行one hot encoding編碼,再統計每個型別的總量。統計時間區間內行為累積,比如統計某個企業 2,5,8,13,21,35 個月內的變更alter記錄數目 也稱...
資料探勘筆記
分類變數 分類變數可以分為有序和無序 無序 無程度之間的差別,如男女 有序 如小,中,大 分類 有序 定量變數.你清楚你的變數型別嗎?無序可以直接用皮爾遜 有序就用斯皮爾曼相關係數計算關係 斯皮爾曼等級相關 spearman s correlation coefficient for ranked ...
資料探勘筆記(二)
資料探勘常用的方法 利用資料探勘進行資料分析常用的方法主要有分類 回歸分析 聚類 關聯規則 特徵 變化和偏差分析 web頁挖掘等,它們分別從不同的角度對資料進行挖掘。分類。分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到某個給定...