資料探勘方法和步驟

2021-07-23 22:39:35 字數 705 閱讀 4864

針對資料探勘過程中直接與資料相關的部分,sas公司提出了semma方**,將資料探勘的核心過程分為抽樣(sample)、探索(explore)、修整(modify)、建模(model)、評估(assess)幾個階段。

1.資料抽樣

資料抽樣就是從資料集中抽取具有代表性的樣本,樣本應該大到不丟失重要的資訊,小到能夠便於操作。

2.探索

使用視覺化方法或主成分分析、因子分析、聚類等統計方法對資料進行探索性分析,發現未曾預料的趨勢和異常情況,對資料形成初步理解,尋求進一步分析的思路。

3.修整

包括生成和轉換變數、發現異常值、變數選擇等。

4.建模

搜尋能夠可靠地**因變數的資料組合,具體而言是指採用哪些觀測、使用哪些自變數能夠可靠地**因變數。

5.評估

評估模型的實用性、可靠性和效果。

6.資料理解和資料準備

在實際資料探勘專案中,占用時間最多的不是建模階段,而是資料理解和資料準備階段,它們常常要占用整個專案80%以上的時間。經過資料理解和資料準備之後,我們希望得到建模資料集。

大量的時間用於從異構和雜亂無章的各種資料中構造建模資料集;在最極端情況下,大部分的時間都用於從各個資料來源收集必要的資料。

資料探勘步驟(流程)

流程說明 暫且總結為五步 1 確立挖掘目的,2 資料準備,3 數學建模,4 模型評估,5 模型應用。第一步 確立挖掘目的,確立業務目標 對目標做簡單評估,確立所需要的資料型別,人力資源及風險等,確立資料探勘的目標 制定實施計畫 第二步 資料準備 1 資料選擇 白貓黑貓能抓老鼠就是好貓,只要第一步確立...

資料探勘方法

資料探勘方法 分類決策樹 id3演算法 c4.5演算法 c5.0演算法 cart演算法 支援向量機 聚類k means演算法 twostep演算法 關聯規則 apriori演算法 fp tree演算法 carma演算法 序列模式演算法 篩選特徵選擇演算法 異常檢測演算法 回歸分析 線性回歸 邏輯回歸...

資料分析資料探勘的步驟

資料探勘主要包括以下幾個步驟 目的 清楚挖掘的目的是什麼?想要達到的目的是什麼?目的 抽取與挖掘目的相關的資料集 目的 保證資料的質量,為模型質量打下基礎 可以從資料質量分析和資料特徵分析兩個角度對資料進行探索 目的 資料質量分析的主要任務是檢查原始資料中是否存在髒資料 資料質量分析要求我們拿到資料...