原書第三版
jiawei han micheline kamber jian pei 著
在進行資料探勘之前,首先需要準備好資料,熟悉資料。
乙個資料物件代表乙個實體,又稱樣本、例項、資料點或物件。
屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維、特徵和變數。
二元屬性:一種標稱屬性(又稱布林屬性)
序數屬性:可能的值之間具有有意義的序。相繼值之間的差未知。
以上三種屬性都是定性的,即它們描述物件的特徵,而不給出實際大小或數量
比率標度屬性
離散屬性與連續屬性
把握資料的全貌
中位數(median):有序資料值的中間值
眾數(mode):集合中出現最頻繁的值
中列數(midrange):資料集中最大和最小值的平均值。
度量資料散布:極差、四分位數、方差、標準差和四分位數極差
盒圖:體現了五數概括
方差和標準差:指出資料分布的散步程度
資料的基本統計描述的圖形顯示
分位數-分位數圖(又稱q-q圖)
直方圖散點圖
通過圖形清晰有效地表達資料
幾何投影視覺化技術
理解多維空間的資料分布
基於圖符的視覺化技術
人物線條畫:把多維資料對映到5段人物線條畫上。每個畫都有四肢和乙個軀體。兩個維被對映到顯示軸,其餘維被對映到四肢角度和(或)長度。
層次視覺化技術:把所有維劃分成子空間,這些子空間按層次視覺化。
視覺化複雜物件和關係
相似性和相異性都稱為鄰近性
數值屬性的相異性
在某些情況下,計算距離之前資料應該規範化,試圖給所有屬性相同的權重
序數屬性的鄰近性度量
混合型別屬性的相異性
可能包含上面列舉了所有屬性型別
余弦相似性
自己加油加油 笨鳥後飛也要飛呀飛
資料探勘概念與技術 讀書筆記(1)
原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...
資料探勘概念與技術讀書筆記 二 認識資料
2.1 資料物件與屬性型別 2.1.1 什麼是屬性 2.1.2 標稱屬性 其值是一些符號或事物的名稱。每個值代表某種類別 編碼或狀態,因此標稱屬性又被看作是分類的。標稱屬性不是定量的,找出它的均值或中位數沒有意義,有意義的是找到眾數,是一種中心趨勢度量。2.1.3 二元屬性 是一種標稱屬性,只有兩個...
讀書筆記 資料探勘概念與技術 資料預處理
資料預處理的目的 提高資料質量,資料質量的三要素 準確性 完整性 一致性。資料預處理的任務 資料清理 填充缺失的值 光滑雜訊 識別離群點 糾正資料中的不一致 忽略元組 人工填寫缺失值 使用乙個全域性常量 使用屬性的中心度量 使用與給定元組屬同一類的所有樣本的屬性均值或中位數 使用最可能的值 最流行 ...