簡單地說,資料探勘是指從大量資料中提取或「挖掘」知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘**稱作**挖掘,而不是砂石挖掘。因此,資料探勘應當更正確地命名為「從資料中挖掘知識」,遺憾的是這個詞有點長。
圖1-3 資料探勘:在你的資料中搜尋知識(有趣的模式)
圖1-4 資料探勘作為知識發現過程的乙個步驟
4. 資料變換(資料變換或統一成適合挖掘的形式,如通過彙總或聚集操作)
5. 資料探勘(基本步驟,使用智慧型方法提取資料模式)
6. 模式評估(根據某種興趣度度量,識別表示知識的真正有趣的模式;見1.5節)
7. 知識表示(使用視覺化和知識表示技術,向使用者提供挖掘的知識)
步驟1~4是資料預處理的不同形式,為挖掘準備資料。資料探勘步驟可能與使用者或知識庫互動。有趣的模式提供給使用者,或作為新的知識存放在知識庫中。注意,根據這種觀點,資料探勘只是整個過程中的乙個步驟,儘管是最重要的步驟,因為它發現用來評估的隱藏的模式。
我們同意資料探勘是知識發現過程的乙個步驟。然而,在產業界、**和資料庫研究界,術語資料探勘比長術語從資料中發現知識更流行。因此,本書選用術語資料探勘。我們採用資料探勘功能的廣義觀點:資料探勘是從存放在資料庫、
資料倉儲
或其他資訊庫中的大量資料中發現有趣知識的過程。基於這種觀點,典型的資料探勘系統具有以下主要成分(見圖1-5):
圖1-5 典型資料探勘系統的結構
" 資料庫、資料倉儲、全球資訊網或其他資訊庫:這是乙個或一組資料庫、資料倉儲、電子資料表或其他型別的資訊庫。可以對這些資料進行資料清理和整合。
" 資料庫或資料倉儲
伺服器
" 知識庫:這是領域知識,用於指導搜尋或評估結果模式的興趣度。這種知識可能包括概念分層,用於將屬性或屬性值組織成不同的抽象層。使用者信念知識也可以包含在內,可以使用這種知識,根據非期望性評估模式的興趣度。領域知識的其他例子包括附加的興趣度約束或閾值,以及元資料(例如,描述來自多個異構資料來源的資料)。
" 資料探勘引擎:這是資料探勘系統的基本部分,理想情況下由一組功能模組組成,用於執行特徵化、關聯和相關分析、分類、**、聚類分析、離群點分析和演變分析等任務。
" 模式評估模組:通常,該成分使用興趣度度量(見1.5節),並與資料探勘模組互動,以便將搜尋聚焦在有趣的模式上。它可能使用興趣度閾值過濾已發現的模式。模式評估模組也可以與挖掘模組整合在一起,這依賴於所用的資料探勘方法的實現。對於有效的資料探勘,建議盡可能深入地將模式評估興趣度推進到挖掘過程之中,以便將搜尋限制在有趣的模式上。
" 使用者介面:該模組在使用者和資料探勘系統之間
通訊,允許使用者與系統互動,說明資料探勘查詢或任務,提供資訊以幫助搜尋聚焦,根據資料探勘的中間結果進行探索式資料探勘。此外,該成分還允許使用者瀏覽資料庫和資料倉儲模式或
資料結構
,評估挖掘的模式,以不同的形式對模式視覺化。
從資料倉儲觀點來看,資料探勘可以看作聯機分析處理(olap)的高階階段。然而,通過結合更高階的資料分析技術,資料探勘比資料倉儲系統的彙總型分析處理的狹窄領域走得更遠。
儘管市場上已有許多「資料探勘系統」,但是並非所有的系統都能進行真正的資料探勘。不能處理大量資料的資料分析系統,最多稱作機器學習系統、統計資料分析工具或實驗系統原型。乙個系統只能夠進行資料或資訊檢索,包括在大型資料庫找出聚集值或回答演繹查詢,更應歸類為資料庫系統,或資訊檢索系統,或演繹資料庫系統。
資料探勘涉及多學科技術的整合,包括資料庫和資料倉儲技術、統計學、機器學習、高效能計算、模式識別、神經網路、資料視覺化、資訊檢索、影象與訊號處理以及空間或時間資料分析。在本書討論資料探勘時,我們採用資料庫觀點。也就是說,著重強調有效的和可伸縮的資料探勘技術。乙個演算法是可伸縮的(scalable)是指,如果給定記憶體和磁碟空間等可利用的系統資源,其執行時間應當隨資料的規模近似線性地增加。通過資料探勘,可以從資料
庫提取有趣的知識、規律或高層資訊,並可以從不同角度觀察或瀏覽它們。發現的知識可以用於做決策、過程控制、資訊管理和查詢處理。因此,資料探勘在資訊和資料庫系統方面是最重要的前沿之一,是資訊科技最有發展前途的交叉學科之一。
什麼是資料探勘
當今資料庫的容量已經達到上萬億的水平 t 1,000,000,000,000個位元組。在這些大量資料的背後隱藏了很多具有決策意義的資訊,那麼怎麼得到這些 知識 呢?也就是怎樣通過一顆顆的樹木了解到整個森林的情況?電腦科學對這個問題給出的最新回答就是 資料探勘,在 資料礦山 中找到蘊藏的 知識金塊 幫...
什麼是資料探勘
什麼是資料探勘?簡單地說,資料探勘是指從大量資料中提取或 挖掘 知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘 稱作 挖掘,而不是砂石挖掘。因此,資料探勘應當更正確地命名為 從資料中挖掘知識 遺憾的是這個詞有點長。知識挖掘 是乙個較短的術語,但不能反映從大量資料中挖掘。畢竟,挖掘是乙個很生動...
什麼是資料探勘
由於資料科學剛剛興起,資料科學家作為一種新生職業被提出,資料研究高階科學家rachel schutt將其定義為 計算機科學家 軟體工程師和統計學家的混合體 資料探勘作為乙個學術領域,橫跨多個學科,涵蓋了統計學 數學 機器學習和資料庫等,此外還包括各類專業方向比如從油田電力 海洋生物 歷史文字 電子通...