資料探勘基礎

2022-06-30 02:00:12 字數 1713 閱讀 7713

什麼是資料探勘?

從大量資料(包括文字)中挖掘出隱含的、未知的、對決策有潛在價值的關係、模式和趨勢,

並運用這些知識和規則建立用於決策支援的模型,提供**性決策支援的方法、工具和過程,

就是資料探勘。

常用的資料探勘建模工具

資料探勘的基本任務包括利用分類與**、聚類分析、關聯規則、偏差檢測、智慧型推薦等方

法,幫助企業提取資料中蘊含的商業價值,提高企業的競爭力。

目標定義

資料採集

資料整理

構建模型

模型評價

模型發布

目標定義

首先要明確本次的挖掘目標是什麼,完成後能達到什麼樣的效果。我們必須了解相關

領域的有關情況、背景知識、使用者需求。想要達到好的效果,必須對挖掘目標有著清晰明了

的認識

資料採集

明確目標後,接下來需要從業務系統中抽取乙個與挖掘目標相關的樣本資料子集。通過資料樣

本的精選,可以減少資料的處理量,減少系統資源,還能使想要尋找的規律能更好的突顯出來

進行資料取樣,一定要嚴把質量關。任何時候都不能忽視資料的質量,就算它是從資料倉儲中進行的資料取樣,也不要忘記檢查資料質量如何。因為資料掘是要探索企業運作的內在規律性,原始資料如若有錯,就很難在從中探索其規律。要時刻注意資料的完整性和有效性。

衡量資料質量的標準:資料完整無缺、各指標項齊全、資料準確無誤,反應的都是正常下的水平。

對獲取的資料還能再從中進行抽樣,抽樣的方式多種多樣,常見的抽樣方式如下:

隨機抽樣:採用隨機抽樣的方式,資料集中每一組觀測值都有相同的被抽取的概率。

等距抽樣:先將總體的全部單元按照一定順序排列,採用簡單隨機抽樣抽取第乙個樣本單元(或稱為隨機起點),再順序抽取其餘的樣本單元。

分層抽樣:首先將樣本總體分成若干層次。每一層中的觀測值都具有相同被選用的概率,但對不同的層次可設定不同的概率。這樣的抽樣通常具有更好的代表性。

按起始順序抽樣:從輸入資料的起始處開始抽樣。抽樣的數量依據可以給定乙個百分比,或者直接給定選取觀測值的組數。

分類抽樣:在前述的幾種抽樣方式中,並不考慮抽取樣本的具體取值。分類抽樣則依據某種屬性的取值來選擇資料子集。

資料整理

當我們拿到乙個樣本資料後,它是否達到我們原來設想的要求、其中有沒有什麼 明顯的規律和趨勢、有沒有出現從未設想過的資料狀態、屬性之間有沒有什麼關聯性、它們可分成怎樣的類別等,這些都是首先要探索的內容。

所取樣資料維度過大時,如何進行姜偉處理、缺失值處理等,都是資料預處理要解決的問題。

資料預處理主要包括:資料篩選、資料變換、缺失值處理、壞資料處理、資料標準化、主要分分析、屬性選擇、資料規劃等。

構建模型

完成樣本抽取並經預處理後,接下來要考慮的問題是:

本次建模屬於資料探勘應用的哪類問題?(分類、聚類、關聯規則、時序模式或智慧型推薦

選用哪種演算法進行建模構建?這一步是資料探勘工作的核心環節。

模型評價

從建模過程中會得出一系列的分析結果,模型評價的目的之一就是從這些模型中自動找出乙個最好的模型,另外就是要根據業務對模型進行解釋和應用。對分類與**模型和聚類分析模型的評價方法是不同的。

《資料探勘》基礎

資料探勘 data mining 是發現資料中有用模式的過程,目的在於使用所發現的模式幫助解釋當前的行為或 未來的結果 資料探勘過程涉及幾個方面 1 資料收集和儲存 2 資料選取與準備 3 模型建立與檢驗 4 解釋與驗證結果 5 模型應用 資料探勘是乙個處理過程,它利用一種或多種計算機學習技術,從資...

資料探勘基礎

本文介紹資料探勘的基本流程 針對具體的資料探勘應用的需求,首先需要明確本次的挖掘目標是什麼,系統完成後能達到什麼樣的效果,因此,我們要分析應用領域中的各種知識,了解相關領域的情況,弄清楚使用者的需求。必須明確的認識我們要幹什麼,再決定怎麼做。明確資料探勘目標後,需要抽取與挖掘目標相關的樣本資料子集。...

資料探勘入門系列 資料探勘基礎

伴隨著資訊化系統建設的發展,各行各業的中大型企業都儲存了大量的業務資料。很多的企業想要通過對這些資料的分析,來發現新的商機以及從這些資料中找到提高盈利的方法。大部分的企業,都是憑藉管理人員的自身個人經驗來開展這項工作。如果有一套系統,能夠自動地或者半自動地發現相關的知識和解決方案,這樣將會有效地提高...