資料探勘(英語:data mining),又譯為資料
探勘、資料
採礦。它是資料庫知識發現(英語:knowledge-discovery in databases,簡稱:kdd)中的乙個步驟。資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關係性(屬於association rule learning)的資訊的過程。資料探勘通常與
計算機機器學習
、專家系統(依靠過去的經驗法則)和
模式識別
等諸多方法來實現上述目標。
在人工智慧領域,習慣上又稱為資料庫中的知識發現(knowledge discovery in database, kdd), 也有人把資料探勘視為資料庫中知識發現過程的乙個基本步驟。知識發現過程由以下三個階段組成:(1)資料準備,(2)資料探勘,(3)結果表達和解釋。資料探勘可以與使用者或知識庫互動。資料探勘是通過分析每個資料,從大量資料中尋找其規律的技術,主要有資料準備、規律尋找和規律表示3個步驟。資料準備是從相關的資料來源中選取所需的資料並整合成用於資料探勘的資料集;規律尋找是用某種方法將資料集所含的規律找出來;規律表示是盡可能以使用者可理解的方式(如視覺化)將找出的規律表示出來。
資料探勘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。
並非所有的資訊發現任務都被視為資料探勘。例如,使用
資料庫管理系統
查詢個別的記錄,或通過網際網路的搜尋引擎查詢特定的web頁面,則是資訊檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用複雜的演算法和資料結構,但是它們主要依賴傳統的
電腦科學
技術和資料的明顯特徵來建立索引結構,從而有效地組織和檢索資訊。儘管如此,資料探勘技術也已用來增強資訊檢索系統的能力。
資料探勘的步驟會隨不同領域的應用而有所變化,每一種資料探勘技術也會有各自的特性和使用步驟,針對不同問題和需求所制定的資料探勘過程也會存在差異。此外,資料的完整程度、專業人員支援的程度等都會對建立資料探勘過程有所影響。這些因素造成了資料探勘在各不同領域中的運用、規劃,以及流程的差異性,即使同一產業,也會因為分析技術和專業知識的涉入程度不同而不同,因此對於資料探勘過程的系統化、標準化就顯得格外重要。如此一來,不僅可以較容易地跨領域應用,也可以結合不同的專業知識,發揮資料探勘的真正精神。
資料探勘完整的步驟如下:
① 理解資料和資料的**(understanding)。
② 獲取相關知識與技術(acquisition)。
③ 整合與檢查資料(integration and checking)。
④ 去除錯誤或不一致的資料(data cleaning)。
⑤ 建立模型和假設(model and hypothesis development)。
⑥ 實際資料探勘工作(data mining)。
⑦ 測試和驗證挖掘結果(testing and verification)。
⑧ 解釋和應用(interpretation and use)。
由上述步驟可看出,資料探勘牽涉了大量的準備工作與規劃工作,事實上許多專家都認為整套資料探勘的過程中,有80%的時間和精力是花費在資料預處理階段,其中包括資料的淨化、資料格式轉換、變數整合,以及資料表的鏈結。可見,在進行資料探勘技術的分析之前,還有許多準備工作要完成。
BE 名詞解釋
1 名詞解釋 介質 用於備份資料的裝置,如磁帶庫,磁碟資料夾,相當於乙個檔案。介質集 相當與乙個資料夾,管理該資料夾下的所有介質。介質伺服器 安裝be的機器。清點 inventory 對匯入的介質必須清點,才能使用。檢查一遍所有的磁帶,確保磁帶可以使用。編錄 catalog 對匯入的介質必須編錄,才...
模組耦合名詞解釋 名詞解釋 簡答
c s 又稱client server 或客戶伺服器模式 對伺服器要求不用太高,穩定即可,建議使用 windows server 伺服器。客戶端需要安裝專用的客戶端軟體,客戶端應為 windows 作業系統。c s的優點是能充分發揮客戶端 pc的處理能力,很多任務作可以在客戶端處理後再提交 給伺服器...
PDA名詞解釋
pda概述 目前,對pda還有一種狹義的理解。狹義的pda指可以稱作電子記事本,其功能較為單一,主要是管理個人資訊,如通訊錄 記事和備忘 日程安排 便箋 計算器 錄音和辭典等功能。而且這些功 能都是固化的,不能根據使用者的要求增加新的功能。廣義的pda主要指掌上電腦,當然也包括其他具有類似功能的小型...