《資料探勘導論》讀書筆記1

2021-09-07 19:55:51 字數 665 閱讀 7847

資料預處理:

1.聚集:將兩個或者多個物件合併成單個物件。

2.抽樣:一種選擇資料物件子集進行分析的常用方法。抽象方法:簡單隨機抽樣 和漸進抽樣

3.維度約:我覺得翻譯的不好,英文明細是降維。降維技術:1.pca(principal components analysis)是一種用於連續屬性的線性代數技術,它找出新的屬性,這些屬性是原屬性的線性組合,是相互正交的,並且捕獲了資料的最大變差。2.svd(singular value decomposition)

4.特徵子集選擇 a:嵌入方法 b:過濾方法 c:包裝方法

5.特徵建立:由原來的屬性建立新的屬性。a.特徵提取 b.對映資料到新的空間 c.特徵構造

6.離散化和二元化

離散化:將連續屬性變換成分類屬性

二元化:連續和離散屬性變換成乙個或者朵兒二元屬性

7.變數變換:使用者變數的所有值的變換

簡單函式

規範化或者標準化

相似度和相異性的度量

1.簡單屬性之間的相似度和相異度

標稱的序數的

區間的或者比率的

2.資料物件之間的相異度

歐幾里得距離

閔克夫斯基距離

3.資料物件之間的相似度

余弦相似度

jaccard相似度

bregman散度

《資料探勘導論》讀書筆記(一) 緒論

書名 資料探勘導論 introduction to data mining 資料探勘是在大型資料儲存庫中,自動地發現有用資訊的過程。資料探勘技術用來探查大型資料庫,發現先前未知的有用模式。資料探勘還可以 未來觀測結果。傳統資料分析技術遇到的實際問題 可伸縮 需要處理海量資料,演算法必須是可伸縮的 s...

《資料探勘導論》讀書筆記11異常檢測

異常檢測的目標是發現與大部分其他物件不同的物件。通常,異常物件被稱作離群點 outlier 異常檢測也稱偏差檢測 deviation detection 因為異常物件的屬性值明顯偏離期望的或者常見的屬性值。異常檢測也稱為例外挖掘,因為異常在某種意義上是例外的。應用場景 欺詐檢測 入侵檢測 生態系統失...

資料探勘概念與技術 讀書筆記(1)

原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...