資料探勘技術簡介

2021-03-31 08:56:57 字數 2420 閱讀 8972

摘要:資料探勘是目前一種新的重要的研究領域。本文介紹了資料探勘的概念、目的、常用方法、資料探勘過程、資料探勘軟體的評價方法。對資料探勘領域面臨的問題做了介紹和展望。

1. 引言

資料探勘(data mining)是從大量的、不完全的、有雜訊的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就是為順應這種需要應運而生發展起來的資料處理技術。是知識發現(knowledge discovery in database)的關鍵步驟。

2. 資料探勘的任務

資料探勘的任務主要是關聯分析、聚類分析、分類、**、時序模式和偏差分析等。

⑴關聯分析(association analysis)

關聯規則挖掘是由rakesh apwal等人首先提出的。兩個或兩個以上變數的取值之間存在某種規律性,就稱為關聯。資料關聯是資料庫中存在的一類重要的、可被發現的知識。關聯分為簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。一般用支援度和可信度兩個閥值來度量關聯規則的相關性,還不斷引入興趣度、相關性等引數,使得所挖掘的規則更符合需求。

⑵聚類分析(clustering)

聚類是把資料按照相似性歸納成若干類別,同一類中的資料彼此相似,不同類中的資料相異。聚類分析可以建立巨集觀的概念,發現資料的分布模式,以及可能的資料屬性之間的相互關係。

⑶分類(classification)

分類就是找出乙個類別的概念描述,它代表了這類資料的整體資訊,即該類的內涵描述,並用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練資料集通過一定的演算法而求得分類規則。分類可被用於規則描述和**。

⑷**(predication)

**是利用歷史資料找出變化規律,建立模型,並由此模型對未來資料的種類及特徵進行**。**關心的是精度和不確定性,通常用**方差來度量。

⑸時序模式(time-series pattern)

時序模式是指通過時間序列搜尋出的重**生概率較高的模式。與回歸一樣,它也是用己知的資料**未來的值,但這些資料的區別是變數所處時間的不同。

⑹偏差分析(deviation)

在偏差中包括很多有用的知識,資料庫中的資料存在很多異常情況,發現資料庫中資料存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。

3.資料探勘物件

根據資訊儲存格式,用於挖掘的物件有關聯式資料庫、物件導向資料庫、資料倉儲、文字資料來源、多**資料庫、空間資料庫、時態資料庫、異質資料庫以及inter***等。

4.資料探勘流程

⑴定義問題:清晰地定義出業務問題,確定資料探勘的目的。

⑵資料準備:資料準備包括:選擇資料--在大型資料庫和資料倉儲目標中提取資料探勘的目標資料集;資料預處理--進行資料再加工,包括檢查資料的完整性及資料的一致性、去雜訊,填補丟失的域,刪除無效資料等。

⑶資料探勘:根據資料功能的型別和和資料的特點擊擇相應的演算法,在淨化和轉換過的資料集上進行資料探勘。

⑷結果分析:對資料探勘的結果進行解釋和評價,轉換成為能夠最終被使用者理解的知識。

⑸知識的運用:將分析所得到的知識整合到業務資訊系統的組織結構中去。

5.資料探勘的方法

越來越多的軟體**商加入了資料探勘這一領域的競爭。使用者如何正確評價乙個商業軟體,選擇合適的軟體成為資料探勘成功應用的關鍵。

評價乙個資料探勘軟體主要應從以下四個主要方面:

⑴計算效能:如該軟體能否在不同的商業平台執行;軟體的架構;能否連線不同的資料來源;操作大資料集時,效能變化是線性的還是指數的;算的效率;是否基於元件結構易於擴充套件;執行的穩定性等;

⑵功能性:如軟體是否提供足夠多樣的演算法;能否避免挖掘過程黑箱化;軟體提供的演算法能否應用於多種型別的資料;使用者能否調整演算法和演算法的引數;軟體能否從資料集隨機抽取資料建立預挖掘模型;能否以不同的形式表現挖掘結果等;

⑶可用性:如使用者介面是否友好;軟體是否易學易用;軟體面對的使用者:初學者,高階使用者還是專家?錯誤報告對使用者除錯是否有很大幫助;軟體應用的領域:是專攻某一專業領域還是適用多個領域等;

⑷輔助功能:如是否允許使用者更改資料集中的錯誤值或進行資料清洗;是否允許值的全域性替代;能否將連續資料離散化;能否根據使用者制定的規則從資料集中提取子集;能否將資料中的空值用某一適當均值或使用者指定的值代替;能否將一次分析的結果反饋到另一次分析中,等等。

7.結束語

資料探勘技術是乙個年輕且充滿希望的研究領域,商業利益的強大驅動力將會不停地促進它的發展.每年都有新的資料探勘方法和模型問世,人們對它的研究正日益廣泛和深入。儘管如此,資料探勘技術仍然面臨著許多問題和挑戰:如資料探勘方法的效率亟待提高,尤其是超大規模資料集中資料探勘的效率;開發適應多資料型別、容噪的挖掘方法,以解決異質資料集的資料探勘問題;動態資料和知識的資料探勘;網路與分布式環境下的資料探勘等;另外,近年來多**資料庫發展很快,面向多**資料庫的挖掘技術和軟體今後將成為研究開發的熱點。

資料探勘技術簡介

1.引言 資料探勘 data mining 是從大量的 不完全的 有雜訊的 模糊的 隨機的資料中提取隱含在其中的 人們事先不知道的 但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就是為順應這種需...

資料探勘技術簡介

1.引言 資料探勘 data mining 是從大量的 不完全的 有雜訊的 模糊的 隨機的資料中提取隱含在其中的 人們事先不知道的 但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就是為順應這種需...

資料探勘技術

關於資料探勘的概念,目前業界沒有統一的定義。首先從技術角度來講,資料探勘就是從大量的 不完全的 有雜訊的 模糊的 隨機的實際應用資料中,提取隱含在其中的人們事先不知道的 但有存在有用的資訊和知識的過程。其次從商業角度來看,它是一種新的商業資訊處理技術,其主要是從商業資料庫中的大量業務資料進行取 轉換...