資料探勘方法 CRISP DM跨行業標準過程

2021-07-23 22:38:29 字數 1084 閱讀 3148

資料探勘活動主要分為無監督和有監督兩大類。在無監督資料探勘中,我們對各個變數不區別對待,而是考察它們之間的關係。這類方法有描述和視覺化、關聯規則分析、聚類分析、主成分分析等。在有監督資料探勘中,我們希望建立根據一些變數來**另一些變數的模型,前者被稱為自變數,後者被稱為因變數。有監督資料探勘能從資料中獲取深度細緻的資訊,應用非常廣泛(如針對貸款企業違約率的**、針對信用卡客戶對營銷活動的響應情況的**、零售商店的銷售**等)。

crisp-dm(cross-industrystandardprocessfordatamining,資料探勘的跨行業標準過程)是由daimlerchrysler、spss和ncr三家機構共同發展起來的資料探勘方**(http:參考模型將資料探勘分為以下六個階段:

1.業務理解

從業務的角度理解專案實施的目的和要求,將這種理解轉化為乙個資料探勘問題,並設計能達成目標的初步方案。

2.資料理解

收集原始資料,熟悉它們,考察資料的質量問題,對資料形成初步的洞見。

3.資料準備

從原始資料中構造用於建模的最終資料集,構造過程中包含觀測選擇和變數選擇、資料轉換和清理等多種活動。

4.建模選擇

並應用多種建模方法,優化各種模型。

5.模型評估

全面評估模型,回顧建立模型的各個步驟,確保模型與業務目標一致,並決定如何使用模型的結果。

6.模型發布

以客戶友好的方式組織並呈現從資料探勘中所獲取的知識。這一階段經常會在組織的決策過程中靈活地應用模型。例如,在建立了**貸款企業違約率的模型後,模型發布形式可以如下:信貸員在前台輸入乙個貸款企業的各種資訊,後台使用模型**違約概率後直接反饋給前台,幫助信貸員決定是否給該企業貸款。

前五個階段都不是線性或一蹴而就的。在資料理解階段可能發現資料能支援的業務目標不同於業務理解階段所設定的目標,所以需要重新回到業務理解階段;資料準備階段和建模階段互為反饋,需要反覆改進建模資料集的構造方法和建模的方法;模型評估階段可能發現模型的結果與預先設定的業務目標不符,需要重新進行業務理解。

CRISP DM(跨行業資料探勘標準流程

跨行業資料探勘標準流程 crisp dm cross industry standard process for data mining 此kdd過程模型於1999年歐盟機構聯合起草.通過近幾年的發展,crisp dm模型在各種kdd過程模型中佔據領先位置,採用量達到近60 資料引自ciosandk...

資料探勘1 方法學CRISP DM

crisp dm 模型為乙個 kdd knowledge discover in database 工程提供了乙個完整的過程描述。該模型將乙個kdd工程分為6個不同的,但順序並非完全不變的階段。在這第乙個階段我們必須從商業的角度了解專案的要求和最終目的是什麼,並將這些目的與資料探勘的定義以及結果結合...

資料探勘標準規範之CRISP DM基礎

一 前言 每每提到資料探勘,總有些人上來就是etl 是演算法 是數學模型,作為搞工程實施的我而言,很是頭疼。其實作為資料探勘的而言,演算法只是其實現手段 是工具和實現手段而已,我們不是在創造演算法 國外職業搞研究的除外 我們是在使用演算法而已,換句話說我們是演算法的工程化實踐者。資料探勘非今日之物,...