《資料探勘 概念與技術(第3版)》筆記(一)

2021-09-26 22:11:08 字數 858 閱讀 6673

【內容包括:第一章 引論】

四、並不是所有的模式都是有趣的

五、資料探勘演算法的完全性

六、資料探勘演算法的優化

七、使用的技術

八、面向應用的型別

九、資料探勘的主要問題

1.資料清洗 2.資料整合 3.資料選擇 4.資料變換 5.資料探勘 6.模式評估 7.知識表現

1.資料庫資料 2. 資料倉儲 3. 事務資料 4.其他型別

1.類/概念描述:特徵化與區分

2.頻繁模式、關聯和相關性

3.用於**分析的分類與回歸

4.聚類分析

5.離群點分析/異常挖掘有趣的模式代表知識

一些模式興趣度的客觀度量

1.關聯規則的支援度 置信度

2.分類規則的準確率 覆蓋率

3.主管興趣度度量 出乎意料的 可行動的

期望資料探勘系統產生所有可能的模式通常是不現實的和低效的。

應當根據使用者提供的約束和興趣度度量對搜尋聚焦。

1.統計學 2.機器學習 3.資料庫系統與資料倉儲

資訊檢索

1.商務智慧型 2. web搜尋引擎

1. 挖掘方法

新的知識型別 多維空間中的知識 跨學科 網路環境下的發現能力的提公升

處理不確定性 雜訊 不完全資料 模式評估和模式或約束指導的挖掘

2.使用者介面

互動挖掘 資料探勘結果的視覺化

3.有效性和可伸縮性

資料探勘演算法的執行時間要是可預計的 可以被應用接受的

並行 分布式和增量挖掘演算法

4.資料庫型別的多樣性

複雜的資料型別 動態的全球的資料庫

5.資料探勘與社會

社會影響 保護隱私 無形的資料探勘

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...

《資料探勘 概念與技術》 第3章 資料預處理

資料要得以應用,必須是高質量的。高質量包括以下6點 1.準確性 2.完整性 3.一致性 4.時效性 5.可信性 6.可解釋性 資料清理 消除噪音,糾正不一致。資料整合 不同資料來源合併乙個,資料倉儲。資料規約 聚集和刪除冗餘,降低資料規模。資料變換 資料壓縮 對映 較小的區間。造成資料不準確 不完整...

《資料探勘概念與技術》書記 3

歡迎來到現實世界!資料預處理技術 這些技術不是互相排斥的,可以一起使用。資料清理可能涉及糾正錯誤資料的變換。資料質量包括準確性 完整性 一致性 時效性 可信性和可解釋性。現實是你希望使用資料探勘技術分析的資料時不完整的 缺少屬性值或某些感興趣的屬性,或僅包含聚集資料 不正確的或含雜訊的 包含錯誤或存...