資料探勘系列之二 資料探勘概述

2021-06-10 16:17:43 字數 2998 閱讀 4272

資料庫系統經歷了如下的技術演變:資料收集和資料庫建立,資料管理(dbms,包括資料儲存和檢索,聯機事務處理oltp),以及高階資料分析(涉及資料倉儲和資料探勘)。當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理、資料整合和聯機分析處理olap。

-oltp:主要用於增刪改查操作,著眼於事務處理的及時性、完整性和正確性。其不足在於:缺乏整合性;主題不明確;分析和處理的效率低下

-olap:資料倉儲主要特點:面向主題、整合、隨時間變化、非易失。olap是資料倉儲的一部分。

-資料探勘:資料倉儲是進行資料探勘的基礎。一種常見的觀點認為,資料探勘包含資料描述和資料建模。olap可以提供資料倉儲中資料的一般描述,olap的功能基本上是使用者指導的彙總和比較(通過鑽取、旋轉、切片、切塊等操作)。這屬於資料探勘功能。根據這種觀點,資料探勘的涵蓋面比olap更寬,dm不僅執行資料彙總和比較,還執行特徵化、區分、關聯、分類、**、聚類、時間序列分析等資料分析任務。

參見: oltp不等於olap 從資料庫到資料倉儲

簡言之,資料豐富,但資訊缺乏(即如何從大量資料中獲取有用資訊)的現狀是推動資料探勘迅猛發展的動力所在。

資料探勘是指從大量資料中提取或「挖掘」知識。通常,資料探勘作為kdd(knowledge discovery in database,資料庫中的知識發現,一般地,在科研領域沿用kdd這個術語,而在商用領域則採用資料探勘這個術語)的同義詞或者kdd的乙個基本步驟。90年達中期以後,基於數理統計人工智慧機器學習神經網路等多種技術,關於資料探勘的研究和應用稱為熱點。

kdd由以下步驟的迭代序列組成:

-資料清理(消除雜訊和不一致資料)

-資料整合(多種資料來源可以組合在一起)

-資料選擇(從資料庫中提取與分析任務相關的資料)

-資料變換(資料變換或統一成適合挖掘的形式)

-資料探勘(基本步驟,使用智慧型方法提取資料模式)

-模式評估(根據某種興趣度度量,識別表示知識的真正有趣的模式)

-知識表示(視覺化)

前4步屬於資料預處理的範疇。簡單地說,kdd包括資料預處理、資料探勘、評估和表示。在這種理解下,資料探勘比kdd的範疇要小。

典型的資料探勘系統結構包括資料庫和/或資料倉儲及相應的伺服器,資料探勘引擎和模式評估模組(二者與知識庫互動),以及圖形使用者介面。資料探勘系統應當提供與資料庫和/或資料倉儲系統的緊密耦合或半緊密耦合。(存在不耦合、鬆散耦合、半緊密耦合和緊密耦合4種情況)

資料探勘可用於任何型別的資訊儲存庫以及瞬態資料(如資料流)。包括關聯式資料庫、資料倉儲、事務資料庫、高階資料庫系統、一般檔案、資料流和全球資訊網。

資料探勘功能用於指定資料探勘任務要找的模式型別。一般地,資料探勘任務可以分為兩類:描述和**。

-**任務:根據自變數**因變數

-資料探勘功能以及它們可以發現的模式型別如下:

-概念/類描述:特徵化和區分

-挖掘頻繁模式、關聯和相關(關聯分析中引入支援度support和置信度confidence)

-分類和**(分類是離散的標號,常見方法有if-then規則、決策樹、數學公式、神經網路;**則指連續的數值**,常用回歸分析法)

-聚類分析(不同於分類和**,訓練資料中不提供類標號)

-離群點分析outlier mining(用於發現異常)

-演變分析evolution analysis

資料探勘的任務主要有4種(其中第乙個屬於兩類資料探勘任務中的**類,其餘三個屬於描述):

-**建模(predictive modeling)其中,分類用於**離散的目標變數(因變數);回歸用於**連續的目標變數。

-關聯分析(association analysis)例如,使用者一起訪問的網頁,顧客一起購買的商品等。

-聚類分析(cluster analysis)例如,根據某些特徵可將一些**分為軍事類、經濟類、體育類、娛樂類等。

-異常檢測(anomaly detection)例如,錄入個人資訊的欺詐行為。

其中,分類和聚類有不少相同之處,而序列(包括時間序列)與關聯分析關係密切。序列和關聯分析都是發現組合規律的,但是關聯中所發現的規律不涉及先後次序,而序列是有先後次序的

刨除演算法不論,分類(機器學習領域中屬於監督學習)與聚類(機器學習領域屬於非監督學習)的本質區別在於

分類的訓練集中自變數和因變數的取值都給出,據此得到乙個**模型用於處理

實際資料集;

聚類則給出相當於自變數的實際資料集,並無訓練集。

支援度(support):滿足規則的事務資料庫的事務所佔的百分比,表徵實用性。p(x並y),x並y表示同時包含x和y的事務。

置信度(confidence):體現發現的規則的確定性程度。p(y|x),即x發生的條件下y發生的概率。

有時還需要考慮主觀興趣度度量。

-任務相關資料

-背景知識

-發現模式的視覺化

可以設計資料探勘查詢語言整合這些原語,允許使用者靈活地與資料探勘系統互動。

-資料探勘技術和使用者互動問題(如處理雜訊,模式評估即興趣度問題)

-效能問題(如並行和分布式資料探勘演算法)

-資料庫型別多樣性問題

[1]資料探勘:概念與技術

[2]資料探勘導論

[3]資料探勘原理

[4]大話資料探勘

資料探勘系列之二 資料探勘概述

資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理 資料整合和聯機分析處理olap...

資料探勘系列之二 資料探勘初窺

1.why 為什麼需要資料探勘 資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理...

資料探勘概述

隨著技術的不斷發展及資料庫管理系統的廣泛應用,資料庫中儲存的資料量急劇增大,在大量的資料背後隱藏著許 多重要的資訊,如果能把這些資訊從資料庫中抽取出來,將為公司創造很多潛在的利潤,而這種從海量資料庫中挖掘資訊 的技術,就稱之為資料探勘。資料探勘工具能夠對將來的趨勢和行為進行 從而很好地支援人們的決策...