資料探勘流程與相關工具

2021-09-12 19:42:26 字數 2876 閱讀 6964

一.流程

1.定義挖掘目標,也就是要弄清業務需求

2.資料採集

衡量資料質量的標準如下

[1]資料完整無缺,各類指標項齊全

[2]資料準確無誤,反映的都是正常狀態下的水平

3.資料分析

對抽樣資料進行異常值分析,缺失值分析,相關分析和週期分析

4.資料預處理

主要包括特徵篩選,異常值處理,缺失值處理,資料歸一化,資料標準化,主成分分析,資料變數轉換等等

5.資料處理好之後抽樣進行模型訓練

[1]隨機抽樣

[2]等距抽樣

[3]分層抽樣 現將樣本分成若干層次,每個層次被抽取的概率可以設定不一樣

[4]分類抽樣 按照某個屬性的類別進行抽樣

6.挖掘建模

考慮這個建模屬於哪類問題(回歸,分類,聚類,關聯規則,時序模式或智慧型推薦),選擇具體的演算法進行建模

7.模型評價

二.資料探勘常用的工具

1.sas

2.spss

3,python

三.具體的資料分析階段

1.缺失值分析

分析每個屬性缺失的比例

2.異常值分析

[1]簡單的統計分析

直接看最大值和最小值是否合理

[2]3q原則

如果資料服從正態分佈,那麼異常值被定義為與平均值的偏差超過3倍的標準差的值

如果不服從正態分佈的話,可以通過定義遠離平均值的多少倍

[3]箱型圖

定義小於下四分位數-1.5倍的四分位數間距或大於上四分位數+1.5被四分位數間距的值為異常值

[4]一致性分析

當資料的**為多個渠道時,需要注意資料的一致性

3.資料特徵分析

[1]分布分析

a.對於定量(連續)的資料,可以通過繪製頻率直方圖來發現特大或特小的可疑值

1)求極差

2)決定組距和組數

3)決定分點

4)列出頻率分布表

5)繪製頻率分布直方圖

b.對於定性分類的資料,可以通過餅圖或條形圖來直觀顯示分布情況

根據變數的分類型別來分組

4.對比分析

適用於指標之間的縱橫向比較,時間週期上的比較

5.統計量分析

[1]集中趨勢

連續資料:均值,中位數

離散資料:眾數

[2]離散趨勢

極差,標準差,

變異係數(主要用來比較兩個或多個具有不同單位或不同波動幅度的資料集的離中趨勢)

四分位數間距(越大說明資料的變異程度越大)

6.週期性分析

探索某個變數是否隨著時間而呈現某種週期變化趨勢

7.相關性分析

分析連續變數線性相關程度的強弱

[1]兩個變數 繪製散點圖

[2]同時考慮多個變數之間的相關性時,利用散點圖矩陣同時繪製各個變數間的散點圖

[3]計算相關係數

pearson 相關係數 分析兩個服從正態分佈連續性變數之間的關係,|r|在(0,1)之間,越大越相關

秩相關係數 不服從正態分佈,分類或等級變數之間的相關性指標

[4]判定係數

是相關係數的平方,衡量回歸方程對y的解釋程度,越接近1,表示x和y的相關性越強

四.資料預處理

1.資料關聯

將多個資料來源存放到乙個一致的資料倉儲中

2.資料去重

同樣的記錄或屬性多次出現

3.資料清洗

主要是刪除原始資料中的無關資料,重複資料,平滑雜訊資料,篩選與挖掘主題無關的資料,處理缺失值,異常值等

[1]缺失值處理

使用均值/中位數/眾數/最近的樣本的屬性值/固定值

使用回歸方法,根據其他屬性和變數之間建立回歸關係

利用已知點建立合適的插值函式(python裡面提供了拉格朗日插值法)

[2]異常值處理

直接刪除含有異常值的記錄

視為缺失值,按照缺失值的方法處理

平均值修正

不處理3.資料變換

[1]簡單函式變換

常用來將不具有正態分佈的資料轉換成具有正態分佈的資料

在序列分析中,有時候簡單的對數變換或差分變換可以將非平穩序列轉換為平穩序列

[2]規範化

消除指標之間的量綱和取值範圍差異的影響,將資料縮放到乙個比較小的區間

a.最小最大規範化

b.零均值規範化

[3]連續屬性離散化

a.等寬法 將屬性的值域分成具有相同寬度的區間

b.等頻法 將相同數量的記錄放進每個區間

c.聚類

4.屬性構造

利用已有的屬性構造出新的屬性

5.特徵選擇

[1]pca

[2]決策樹

[3]scikit-learn裡面的特徵選擇方法

a.比較簡單的是通過f檢驗來給出各個特徵的f值和p值,篩選出f值大,p值小的特徵

b.遞迴特徵消除

反覆的構建回歸模型等來選出最優的特徵

c.穩定性選擇方法

在不同的資料子集和特徵子集上執行演算法,最終對選出來的特徵結果進行彙總

五.模型演算法

1.關聯規則

[1]apriori

核心思想是通過連線產生候選項與其支援度,然後通過剪枝生成頻繁項集

[2]fp-tree

六.資料**

1.資料庫

[1]關聯式資料庫

[2]分布式資料庫

2.爬取

[1]非技術

[2]技術層

3.購買

[1]技術**

[2]交易所

七.資料儲存

將獲取到的資料進行儲存

1.文件

2.資料庫

3.伺服器

hadoop的分布式檔案系統

八.etl工程

資料抽取,轉換,載入

資料探勘流程

下面是資料探勘流程 crisp dm 跨行業資料探勘標準流程 這是目前業界主流的 資料探勘流 程,其實本人覺得這也是統計學 建 模方式的語言模式,大家都是這麼做的,只是用個專門的流程會方便一些 1 業務理解 理解專案的目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步...

資料探勘流程

crisp dm cross industry standard process for data mining 即為 跨行業資料探勘過程標準 此kdd knowledge discovery in database 過程模型於1999年歐盟機構聯合起草.通過近幾年的發展,crisp dm 模型在各...

資料探勘流程

一 業務理解 主要任務是深刻理解業務需求,在此基礎上制定資料探勘的目標和實現目標的初步計畫。二 資料理解 收集資料,熟悉資料,識別資料的質量問題和探索引起興趣的子集。三 資料準備 從收集來的資料集選擇必要的屬性 因素 並按關聯關係將它們連線成乙個資料集,然後進行資料清洗 即空值及異常值處理 離群值剔...