1. 確定資料探勘的目標
2. 資料取樣
3. 資料整理
4. 構建資料模型
5. 模型評價
6. 模型應用
針對具體的資料探勘應用需求,首先要確定本次資料探勘的目標是什麼?系統完成之後能夠達到什麼樣的效果?
要想充分發揮資料探勘的價值,必須對目標有乙個清晰明確的定義,即決定到底想幹什麼?
在明確了需要進行資料探勘的目標之後,接下來就需要從業務系統中抽取乙個與挖掘目標相關的樣本資料子集。
抽取資料的標準,一是相關性;二是可靠性;三是有效性。
在抽取資料時,還需要關注資料的質量。
衡量資料取樣質量的標準如下:
(1)資料完整,無缺,各類指標項齊全;
(2)資料準確無誤,反映的都是正常(而不是異常)狀態下的水平。
抽樣的方式:
對所抽取的樣本資料進行探索、審核和必要的加工處理,是保證最終的挖掘模型的質量所必須的。
資料探索主要包括:
(1)異常值分析
[資料分析學習筆記] 異常值分析方法
(2)缺失值分析
(3)相關性分析
(4)週期性分析
構建資料模型是資料探勘過程的核心環節。
根據挖掘目標和資料形式可以建立:
(1)分類與**模型
(2)聚類分析模型
(3)關聯規則模型
(4)時序模式
(5)偏差檢測模型
通過各種模型幫助企業提取資料中蘊含的商業價值,提高企業的競爭力。
構建模型過程中,會得出一系列的分析結果,模型評價的目的之一就是從這些模型中自動找出乙個最好的模型,另外就是要根據業務對模型進行解釋和應用。
將模型進行應用
對模型進行重構
Python資料分析與挖掘實戰 挖掘建模
常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...
學習筆記 資料預處理(資料探勘)
提取碼 m69u 主要內容 資料清洗 資料整合 資料變換 資料規約 資料清洗 物件 無關資料,重複資料,平滑雜訊資料,篩選掉與挖掘主題無關的資料,處理缺失值,異常值等。方法 刪除記錄,資料插補和不處理。常見的插補法 拉格朗日插值法 牛頓插值法 用拉格朗日插值法對缺失值進行插補的python程式。資料...
資料探勘學習筆記 資料預處理
目錄 資料預處理的任務 一 資料規範化 最小 最 min max normalization 零均值規範化 z score 二 資料離散化 無監督離散化方法 有監督離散化方法 三 資料清洗 處理資料的缺失 噪音資料的處理 四 特徵提取和特徵選擇 特徵提取 特徵選擇 q 為什麼要進行資料預處理?a 原...