原書第三版
jiawei han micheline kamber jian pei 著
解決「資料豐富,但資訊貧乏」的問題。
資料的**式增長,廣泛可用,巨大數量 ——>資料時代——> 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。
從資料中挖掘知識。
資料倉儲
事務資料
其他型別的資料
類/概念描述:特徵化與區分
資料特徵化:目標類資料的一般特性或特徵的彙總
資料區分:將目標類,與乙個或多個可比較類進行比較。
例如:定期購買電腦產品的客戶和不購買電腦產品的客戶進行比較。
挖掘頻繁模式、關聯和相關性
頻繁模式:在資料中頻繁出現的模式。
關聯分析(例如分析,哪些商品總是一起被購買)
相關性(相關聯的屬性-值對之間的統計相關性)
用於**分析的分類和回歸
相關分析可能需要在分類和回歸之前進行,它試圖識別與分類和回歸過程顯著相關的屬性。
聚類分析
聚類分析:分析資料物件,而不考慮類標號。可以使用聚類產生資料組群的類標號。
—>「最大化類內相似性,最小化類間相似性」
離群點分析
異常挖掘。有時看做雜訊而丟棄,但是在比如欺詐檢測等應用中,罕見事件的出現,更令人感興趣。
所有模式都是有趣的嗎?
客觀度量:支援度,置信度。
商務智慧型、web搜尋、生物資訊學、衛生保健資訊學、金融、數字圖書館……
使用者互動
有效性與可伸縮性
處理多種多樣的資料型別
資料探勘與社會
自己加油加油 笨鳥後飛也要飛呀飛
資料探勘概念與技術 讀書筆記(2)
原書第三版 jiawei han micheline kamber jian pei 著 在進行資料探勘之前,首先需要準備好資料,熟悉資料。乙個資料物件代表乙個實體,又稱樣本 例項 資料點或物件。屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維 特徵和變數。二元屬性 一種標稱屬性 又稱布林屬性 序...
資料探勘概念與技術讀書筆記 二 認識資料
2.1 資料物件與屬性型別 2.1.1 什麼是屬性 2.1.2 標稱屬性 其值是一些符號或事物的名稱。每個值代表某種類別 編碼或狀態,因此標稱屬性又被看作是分類的。標稱屬性不是定量的,找出它的均值或中位數沒有意義,有意義的是找到眾數,是一種中心趨勢度量。2.1.3 二元屬性 是一種標稱屬性,只有兩個...
讀書筆記 資料探勘概念與技術 資料預處理
資料預處理的目的 提高資料質量,資料質量的三要素 準確性 完整性 一致性。資料預處理的任務 資料清理 填充缺失的值 光滑雜訊 識別離群點 糾正資料中的不一致 忽略元組 人工填寫缺失值 使用乙個全域性常量 使用屬性的中心度量 使用與給定元組屬同一類的所有樣本的屬性均值或中位數 使用最可能的值 最流行 ...