從大量資料(包括文字)中挖掘出隱含的、未知的、對決策有潛在價值的關係、模型和趨勢,並用這些知識和規律建立用於決策支援的模型,提供**性決策支援的方法、工具和過程,就是資料探勘;它利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學、資料庫技術和人工智慧技術的綜合。
包含利用分類與**、聚類分析、關聯規則、時序模型、偏差檢測、智慧型推薦等方法。幫助企業提取資料中蘊含的商業價值,提高企業競爭力。
資料探勘建模過程
順序步驟內容1
目標定義
任務理解、指標確認
2資料採集
建模抽樣、質量把控、實時採集
3資料整理
資料探索、資料清洗、資料變換
4構建模型
模型發現、構建模型、驗證模型
5模型評價
設定評價標準、多模型對比、模型優化
6模型發布
模型部署、模型重構
(確認目標,了解相關領域知識及背景,弄清楚使用者需求)。
例如:針對餐飲業幫助客戶發現感興趣的選單,實現動態智慧型推送,實現消費者和餐飲企業的雙贏。1.使用者細分歸類,了解不同使用者的客戶的貢獻度及消費特徵等,分析使用者價值,結合實際情況,將有限的資源充分利用在有價值的使用者群體(比如製作獎勵機制等回饋優質使用者),實現精準話營銷。2.基於菜品歷史銷售資料,綜合考慮節假日、氣候和競爭對手、企業發展規劃等影響因素,進行趨勢**分析,方便準備原材料(企業前期準備並制定方案)。3.基於大資料,優化現狀與戰略方向(分店選址,潛在使用者分布,使用者喜好進行分析),以便及時調整戰率方向。
明確挖掘目標後,需要從業務系統中抽取出乙個與挖掘目標相關的樣本資料子集,(標準:相關性、可靠性、有效性,完整性[非全部資料]),檢驗資料質量(衡量標準:資料完整指標齊全、資料準確無異常值、)。資料抽樣提取方法(包括但不限於:隨機抽樣、等距抽樣、分層抽樣、從起始順序抽樣、分類抽樣)。
包括異常值(離散值等)分析、缺失值分析、相關性分析、週期性分析。
資料篩選、資料變數轉換、缺失異常值處理、壞資料處理、資料標準化、主成分分析處理、屬性選擇、資料規約、降維處理等。
(分類、聚類、關聯規則、時序模式或者智慧型推薦等其中一種或者多種演算法進行建模)
根據分析結果,選擇最優模型進行解釋和應用。
資料分析學習筆記 資料探勘建模過程
1.確定資料探勘的目標 2.資料取樣 3.資料整理 4.構建資料模型 5.模型評價 6.模型應用 針對具體的資料探勘應用需求,首先要確定本次資料探勘的目標是什麼?系統完成之後能夠達到什麼樣的效果?要想充分發揮資料探勘的價值,必須對目標有乙個清晰明確的定義,即決定到底想幹什麼?在明確了需要進行資料探勘...
資料探勘 建模調參
線性回歸,模型決策樹模型 gbdt模型,xgboost模型 lightgbm模型 簡單的線性回歸,可以用sklearn from sklearn.linear model import linearregression model linearregression normalize true mo...
資料探勘實戰(三) 資料建模
根據前兩次任務的資料探索結果,進行學習模型的訓練,嘗試多種模型,這些模型暫未調參,後面再補上 y data status x data.drop status axis 1 把資料集拆分成訓練集和測試集 seed 7 test size 0.33 x train,x test,y train,y t...