資料預處理:
1.聚集:將兩個或者多個物件合併成單個物件。
2.抽樣:一種選擇資料物件子集進行分析的常用方法。抽象方法:簡單隨機抽樣 和漸進抽樣
3.維度約:我覺得翻譯的不好,英文明細是降維。降維技術:1.pca(principal components analysis)是一種用於連續屬性的線性代數技術,它找出新的屬性,這些屬性是原屬性的線性組合,是相互正交的,並且捕獲了資料的最大變差。2.svd(singular value decomposition)
4.特徵子集選擇 a:嵌入方法 b:過濾方法 c:包裝方法
5.特徵建立:由原來的屬性建立新的屬性。a.特徵提取 b.對映資料到新的空間 c.特徵構造
6.離散化和二元化
離散化:將連續屬性變換成分類屬性
二元化:連續和離散屬性變換成乙個或者朵兒二元屬性
7.變數變換:使用者變數的所有值的變換
簡單函式
規範化或者標準化
相似度和相異性的度量
1.簡單屬性之間的相似度和相異度
標稱的序數的
區間的或者比率的
2.資料物件之間的相異度
歐幾里得距離
閔克夫斯基距離
3.資料物件之間的相似度
余弦相似度
jaccard相似度
bregman散度
《資料探勘導論》讀書筆記(一) 緒論
書名 資料探勘導論 introduction to data mining 資料探勘是在大型資料儲存庫中,自動地發現有用資訊的過程。資料探勘技術用來探查大型資料庫,發現先前未知的有用模式。資料探勘還可以 未來觀測結果。傳統資料分析技術遇到的實際問題 可伸縮 需要處理海量資料,演算法必須是可伸縮的 s...
《資料探勘導論》讀書筆記11異常檢測
異常檢測的目標是發現與大部分其他物件不同的物件。通常,異常物件被稱作離群點 outlier 異常檢測也稱偏差檢測 deviation detection 因為異常物件的屬性值明顯偏離期望的或者常見的屬性值。異常檢測也稱為例外挖掘,因為異常在某種意義上是例外的。應用場景 欺詐檢測 入侵檢測 生態系統失...
資料探勘概念與技術 讀書筆記(1)
原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...