寫在前面:粗體字為書中定義,紅色字型為筆者認為的重點詞。
【第一章:緒論】
1.資料探勘:在大型資料儲存庫中,自動地發現有用資訊的過程。
3.資料探勘要解決的問題:可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。
4.資料探勘任務:**任務,描述任務。
四種主要資料探勘任務:
(1)**建模,有兩類:分類,用於**離散目標;回歸,用於**連續目標
(2)關聯分析
(3)聚類分析
(4)異常檢測
【第二章:資料】
(一)屬性與度量
1.屬性:是物件的性質或特性,它因物件而異,或隨時間而變化。
3.屬性的不同型別:
(1)標稱,描述:標稱屬性的值僅僅只是不同的名字,即標稱值只提供足夠的資訊區分物件。
(2)序數:序數屬性的值提供足夠的資訊確定物件的序。
(3)區間:對於區間屬性,值之間的差是有意義的,即存在測量單位。
(4)比率:對於比率變數,差和比率都是有意義的。
屬性型別的定義是累積的。(1)(2)統稱分類的或定性的屬性,(3)(4)統稱定量的或數值的屬性。注意:定量屬性可以是整數值或連續值。
4.非對稱的屬性:只有非零值才重要的二元屬性是非對稱的二元屬性。這類屬性對於關聯分析特別重要。
(二)資料集的型別
1.資料集的一般特性:緯度,稀疏性,解析度
2.基於圖形的資料:帶有物件之間聯絡的資料,具有圖形物件的資料
3.有序資料:時序資料,序列資料,時間序列資料,空間資料
《資料探勘導論》學習筆記(一)
四種主要的資料探勘任務 1 建模任務 2 關聯分析 3 聚類分析 4 異常檢測 主要的資料質量問題 存在雜訊和離群點,資料遺漏 不一致或重複,資料有偏差,或者在別的方面,資料不代表描述所設想的現象或總體情況。資料集主要分為三類 記錄資料,基於圖形的資料 有序的資料 一般資料集的三個特性 記錄資料的不...
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...
資料探勘導論學習筆記(二)
第三章 探索資料 匯 計 量化的 如均值和標準差 用單個數或數的小集合捕獲可能很大的值集的各種特徵。頻率 具有屬性值vi的物件數 總數 分類屬性的眾數就是具有最高頻率的值。百分位數 給定乙個有序的或連續的屬性x和0到100之間的數p,第p個百分位數xp是乙個x值,似的x的p 的觀測值小於xp。值集位...