資料探勘概念與技術 學習筆記1 引論

2021-06-19 00:32:56 字數 1111 閱讀 1043

資料倉儲:多個異構資料來源在單個站點以統一的模式組織的儲存,以支援管理決策。

資料倉儲:通過資料清理、資料變換、資料整合、資料裝入、定期資料重新整理來構造。

資料倉儲技術包括:資料清理、資料整合、聯機分析處理(olap)。olap操作的例子包括上捲和下鑽。

資料倉儲用資料立方體這種多維資料結構建模。

知識發現(資料探勘)過程:資料預處理(資料清理、資料整合、資料選擇、資料變換)、資料探勘、模式評估、知識表示。

資料探勘是從大量資料中挖掘有趣模式和知識的過程。

可以挖掘的資料型別:資料庫、資料倉儲、事務資料、資料流、有序資料、圖、網路資料、空間資料、文字資料、多**資料、全球資訊網。

資料探勘功能用於指定資料探勘任務發現的模式,包括:特徵化與區分、頻繁模式、關聯和相關性挖掘、分類與回歸、聚類分析、離群點分析。

分類(用於**):找出描述和區分資料類的模型(或函式),以便能用此模型**類標號未知的物件的類標號。匯出模型基於對訓練資料集(即類標號已知的資料物件)的分析,**類標號未知的物件的類標號。

回歸分析:分類用於**類別(無序、離散)的標號,而回歸用來**缺失的或難獲得的數值資料值,而不是(離散的)類標號。術語**可以指數值**和類標號**。

聚類分析:分類和回歸分析標記類的(訓練)資料集,而聚類分析資料物件,不考慮類標號。在許多情況下,最初並不存在標記類的資料,可使用聚類產生資料群組的類標號。

離群點分析:通過統計、距離向量或密度可以確定離群點。

機器學習:考察計算機如何基於資料學習(或提高它們的效能)。主要研究領域這之一是,程式基於資料自動地學習識別複雜的模式,並做出智慧型的決斷。如,為計算機程式設計序,使之從一組例項學習後,能自動識別郵件上的手寫體郵編。

無監督學習(類似於聚類):學習過程是無監督的,因為輸入例項沒有類標記。如,乙個無監督學習方法可以取乙個手寫數字影象集合作為輸入,假設它找到了10個資料簇,分別對應0-9,然而,由於訓練資料並無標記,因此學習到的模型並不能告訴我們所發現的簇的語義。

半監督學習:在學習模型時,使用標記的和未標記的例項。

主動學習:可能要求使用者對乙個可能來自未標識的例項集或由學習程式合成的例項進行標記。

資訊檢索(ir):搜尋文件或文件中資訊,可以是文字或多**等。

商務智慧型(bi):資料探勘是商務智慧型的核心。

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...

資料探勘概念與技術 讀書筆記(1)

原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...

《資料探勘概念與技術》書記 1

有感知識點 資料探勘又稱資料中的知識發現 kdd 知識發現過程主要由以下步驟的迭代序列組成 資料清理 消除雜訊和刪除不一致資料等 資料整合 多種資料來源可以組合在一起 資料選擇 從資料庫中提取與分析任務相關的資料 資料變化 通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式 資料探勘 基本步驟,使...