《資料探勘》基礎

2021-06-07 08:42:54 字數 3000 閱讀 4042

資料探勘(data mining)是發現資料中有用模式的過程, 目的在於使用所發現的模式幫助解釋當前的行為或**未來的結果

資料探勘過程涉及幾個方面:

(1)資料收集和儲存

(2)資料選取與準備

(3)模型建立與檢驗

(4)解釋與驗證結果

(5)模型應用

資料探勘是乙個處理過程,它利用一種或多種計算機學習技術,從資料庫的資料中自動分析並提取知識

資料探勘會話的目的是確定資料的趨勢和模式

資料探勘所獲取的知識是以乙個模型或資料概化的形式給出的

資料庫中的知識發現(knowledge discovery in database, kdd)是乙個可以與資料探勘互換的、使用頻率很高的術語,kdd是資料探勘科學方法的應用

如果乙個特殊的應用涉及到對儲存在多個地方的大量資料進行分析時,資料提取和準備就成為發現過程中最耗時的部分

「資料探勘」是有關學習的,學習是乙個複雜的過程,可以被分為4個級別

(1)事實(fact):事實的簡單陳述

(2)概念(concept):具備某個特徵而聚合在一起的物件、符號或事件的集合

(3)程式(procedure):在日常工作和解決困難問題時,為達到某個目的而採取的一步一步的行動過程

(4)原理(principle):代表學習的最高層次,是一種普遍事實或其他事實的基本規律

三種概念觀點:

(1)經典觀點(classical view)證明所有概念都有明確的定義屬性,這些屬性決定了個別專案是否為某個特殊概念的乙個例項;(概念的經典定義是明確的,對曲解絲毫不留餘地; 該觀點認為乙個特殊概念的所有例項等同於這個概念的代表)

(2)概率觀點(probabilistic view)認為概念是由屬性表示的,這些屬性很可能是概念成員(觀點假設通過對個別樣本(例項)的觀察產生概括,作為人們儲存和回憶的概念)

(3)樣本觀點(exemplar view)規定,如果乙個給定例項與某個特殊概念的乙個或多個已知例子所組成的集合充分地相似,則它被認為是是這個概念的乙個例子

「有指導學習」可能是最好理解的概念學習方法

(清華大學出版社 翁敬農譯)我們年輕的時候,用歸納形成基本概念定義,我們看到代表動物、植物、建築物和諸如此類的概念例項後,我們聽到為這些個別例項做的標記,並選擇我們認定的定義概念的特性(屬性)形成我們自己的分類模型;這以後我們使用模型幫助我們進一步來區分結構相似的物件,這種型別的學習稱為【基於歸納的有指導的概念學習】,或簡稱【有指導的學習】(supervised learning)

有指導學習的目的有兩方面,首先,我們通過包含所要學習的概念的例子和非例子的資料集合,使用有指導學習建立分類模型;(乙個例子 或非例子被稱為乙個資料例項)然後,一旦分類模型建立完成,模型將用於確定新提交的未知**的例項的類別。 

應用模型為未知**的新例項分類是乙個演繹過程

用於建立【決策樹模型】的例項稱為【訓練資料】(training data)

我們可以將任何的決策樹翻譯為乙個產生式規則集,產生式規則的格式:

if      前提條件

then 結論條件

將決策樹對映為產生式規則集是一種簡單的技術,按照從根節點出發,沿著樹的一條路徑到葉結點的順序來建立規則,規則的前提條件由這條路徑上所見的屬性值的組合給出,相應規則的結論是葉節點的值

與有指導學習不同,【無指導聚類】(unsupervised clustering)為無定義型別資料建立模型。 資料例項根據聚類系統定義的相似分類機制進行分組,在一種或多種評估技術的支援下,最終由我們確定所構造聚類的含義

是否需要採用資料探勘的策略來解決問題,需要考慮:

(1)我們能夠清楚地定義問題嗎?

(2)是否存在潛在的有意義的資料?

(3)資料是否包含隱藏的知識或者資料是否真實並且僅對報表有用?

(4)處理資料的費用是否低於應用資料探勘專案中獲得的潛在的知識而增加的利益?

可以定義4種常用的知識來幫助我們確定什麼時候考慮採用資料探勘:

(1)淺知識(shallow knowledge)本質是真實的,可以很容易地在資料庫中儲存和操作淺知識了資料庫查詢語句,如sql,是提取資料中淺知識的優秀工具

(2)多維知識(multidimensional knowledge)也是真實的,然而這種資料以多維格式儲存,聯機分析處理(olap)工具用於處理多維資料

(3)隱含知識(hidden knowledge)表示資料中的模式或規則,這些模式或規則不容易用資料庫查詢語言查詢出來,如sql。然而資料探勘演算法卻可以輕易地找到它們

(4)深知識(deep knowledge)是儲存在資料庫中,僅僅在給出我們要查詢內容的方向時,才能找到的知識,目前資料探勘工具還不能定位深知識

廣義地說,我們可以將資料探勘定義為有4個步驟的處理過程:

(1)集合用於分析的資料集

(2)將資料提交給資料探勘軟體程式

(3)解釋結果

(4)將結果運用於新問題或新情況

集合資料:一種普遍存在的誤解是,為了建立乙個有效的模型,資料探勘演算法必須具備成千上萬條例項;實際上,在具備幾百或幾千條相關記錄的情況下,大多數資料探勘工具工作得最好。  通常,集合資料需要花費大量的時間和精力;

有3種訪問資料的途徑:(1)從資料倉儲中訪問資料; (2)從關聯式資料庫中訪問資料; (3)從簡單檔案或電子**中訪問資料

資料倉儲是一種經典資料庫,它是為決策支援而不是事物處理而設計的;

資料倉儲儲存的所有資料都與同乙個表中的相同的主題(如乙個客戶)有關

在將資料交給資料探勘工具前,我們需要考慮:

(1)學習應該是有指導的還是無指導的

(2)在組合的資料中哪些例項將用於建立模型,哪些例項將用於檢查模型

(3)從可用的屬性清單中選擇哪些屬性

(4)資料探勘工具需要使用者指定乙個或多個學習引數,什麼樣的引數設定可以最好地表示資料,從而用於建立模型

客戶的固有值是客戶的期望值,它以客戶相似的歷史值為基礎,資料探勘用於建立**固有值的模型

【決策樹】:一種樹形結構,其非終極結點表示對乙個或多個屬性的檢驗,而終極結點反映判定的結果

【**】:像~~一樣做

【專家系統】:模仿人類專家行為的電腦程式

資料探勘基礎

本文介紹資料探勘的基本流程 針對具體的資料探勘應用的需求,首先需要明確本次的挖掘目標是什麼,系統完成後能達到什麼樣的效果,因此,我們要分析應用領域中的各種知識,了解相關領域的情況,弄清楚使用者的需求。必須明確的認識我們要幹什麼,再決定怎麼做。明確資料探勘目標後,需要抽取與挖掘目標相關的樣本資料子集。...

資料探勘基礎

什麼是資料探勘?從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並運用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。常用的資料探勘建模工具 資料探勘的基本任務包括利用分類與 聚類分析 關聯規則 偏差檢測 智慧型推薦等方 法,...

資料探勘入門系列 資料探勘基礎

伴隨著資訊化系統建設的發展,各行各業的中大型企業都儲存了大量的業務資料。很多的企業想要通過對這些資料的分析,來發現新的商機以及從這些資料中找到提高盈利的方法。大部分的企業,都是憑藉管理人員的自身個人經驗來開展這項工作。如果有一套系統,能夠自動地或者半自動地發現相關的知識和解決方案,這樣將會有效地提高...