crisp-dm 模型為乙個
kdd(knowledge discover in database)工程提供了乙個完整的過程描述。該模型將乙個kdd工程分為6個不同的,但順序並非完全不變的階段。
在這第乙個階段我們必須從商業的角度了解專案的要求和最終目的是什麼,並將這些目的與資料探勘的定義以及結果結合起來。
主要工作包括:確定商業目標,發現影響結果的重要因素,從商業角度描繪客戶的首要目標,評估形勢,查詢所有的資源、侷限、設想以及在確定資料分析目標和專案方案時考慮到的各種其他的因素,包括風險和意外、相關術語、成本和收益等等,接下來確定資料探勘的目標,制定專案計畫。
資料理解階段開始於資料的收集工作。接下來就是熟悉資料的工作,具體如:檢測資料的量,對資料有初步的理解,探測資料中比較有趣的資料子集,進而形成對潛在資訊的假設。收集原始資料,對資料進行裝載,描繪資料,並且探索資料特徵,進行簡單的特徵統計,檢驗資料的質量,包括資料的完整性和正確性,缺失值的填補等。
資料準備階段涵蓋了從原始粗糙資料中構建最終資料集(將作為建模工具的分析物件)的全部工作。資料準備工作有可能被實施多次,而且其實施順序並不是預先規定好的。這一階段的任務主要包括:製表,記錄,資料變數的選擇和轉換,以及為適應建模工具而進行的資料清理等等。
根據與挖掘目標的相關性,資料質量以及技術限制,選擇作為分析使用的資料,並進一步對資料進行清理轉換,構造衍生變數,整合資料,並根據工具的要求,格式化資料。
在這一階段,各種各樣的建模方法將被加以選擇和使用,通過建造,評估模型將其引數將被校準為最為理想的值。比較典型的是,對於同乙個資料探勘的問題型別,可以有多種方法選擇使用。如果有多重技術要使用,那麼在這一任務中,對於每乙個要使用的技術要分別對待。一些建模方法對資料的形式有具體的要求,因此,在這一階段,重新回到資料準備階段執行某些任務有時是非常必要的。
從資料分析的角度考慮,在這一階段中,已經建立了乙個或多個高質量的模型。但在進行最終的模型部署之前,更加徹底的評估模型,回顧在構建模型過程中所執行的每乙個步驟,是非常重要的,這樣可以確保這些模型是否達到了企業的目標。乙個關鍵的評價指標就是看,是否仍然有一些重要的企業問題還沒有被充分地加以注意和考慮。在這一階段結束之時,有關資料探勘結果的使用應達成一致的決定。
部署,即將其發現的結果以及過程組織成為可讀文字形式。模型的建立並不是專案的最終目的。儘管建模是為了增加更多有關於資料的資訊,但這些資訊仍然需要以一種客戶能夠使用的方式被組織和呈現。這經常涉及到乙個組織在處理某些決策過程中,如在決定有關網頁的實時人員或者營銷資料庫的重複得分時,擁有乙個「活」的模型。
根據需求的不同,部署階段可以是僅僅像寫乙份報告那樣簡單,也可以像在企業中進行可重複的資料探勘程式那樣複雜。在許多案例中,往往是客戶而不是資料分析師來執行部署階段。然而,儘管資料分析師不需要處理部署階段的工作,對於客戶而言,預先了解需要執行的活動從而正確的使用已構建的模型是非常重要的。
[2]
資料探勘方法 CRISP DM跨行業標準過程
資料探勘活動主要分為無監督和有監督兩大類。在無監督資料探勘中,我們對各個變數不區別對待,而是考察它們之間的關係。這類方法有描述和視覺化 關聯規則分析 聚類分析 主成分分析等。在有監督資料探勘中,我們希望建立根據一些變數來 另一些變數的模型,前者被稱為自變數,後者被稱為因變數。有監督資料探勘能從資料中...
CRISP DM(跨行業資料探勘標準流程
跨行業資料探勘標準流程 crisp dm cross industry standard process for data mining 此kdd過程模型於1999年歐盟機構聯合起草.通過近幾年的發展,crisp dm模型在各種kdd過程模型中佔據領先位置,採用量達到近60 資料引自ciosandk...
資料探勘標準規範之CRISP DM基礎
一 前言 每每提到資料探勘,總有些人上來就是etl 是演算法 是數學模型,作為搞工程實施的我而言,很是頭疼。其實作為資料探勘的而言,演算法只是其實現手段 是工具和實現手段而已,我們不是在創造演算法 國外職業搞研究的除外 我們是在使用演算法而已,換句話說我們是演算法的工程化實踐者。資料探勘非今日之物,...