維歸約規範化
選擇資料子集
視覺化模式表達
高維性:物件擁有數量不少的屬性
資料的所有權與分布:分布式資料處理
非傳統的分析:資料探勘要求自動產生和評估假設,並且資料探勘資料集多是時機性樣本,而非隨機性樣本
關聯分析(association analysis):用來發現描述資料中強相關的模式
聚類分析(cluster analysis) :旨在發現緊密相關的物件群,使得同一簇中的物件盡可能相似,不同簇之間的物件則盡可能相異
異常檢測(anomaly analysis):識別其屬性值明顯不同於其他資料的物件,這樣物件被稱為異常值(anomaly) 或離群點(outlier)
序加法乘法
稀疏性:如具有非對稱特徵的資料集,只有非零值才需要處理。
解析度:如果解析度太高,分類太細,模式可能看不到,或者掩埋在雜訊裡,如果解析度太低,模式可能不出現。
資料矩陣:資料物件看做多維空間中的點,每個維代表描述物件的乙個不同屬性。
稀疏資料矩陣:文件-詞矩陣
具有圖形物件的資料,如化學分子
序列資料:如基因序列
時間序列資料:如氣溫時間序列,要考慮時間自相關,時間接近的測量值通常非常相似
雜訊:測量誤差的隨機部分
偽像:資料的確定性失真,如:一**像在相同的位置出現條紋
精度:(同一量的)重複測量值之間的接近程度
偏倚:測量值與被測量值之間的系統變差
準確度:測量值與實際值之間的接近程度,準確率的乙個重要方面是有效數字
離群點:離群點與噪音不同,它往往是合法的值,並且可能是人們關注的重點,如:信用卡欺詐、網路進攻等
遺漏值:解決方法有 a.刪除物件和屬性 b.估計遺漏值 c. 在分析時忽略遺漏值
不一致的值
重複資料:去重複方法解決
關於資料的背景知識
對映資料到新的空間:如將時間域的變數變換到頻率域,參見 傅利葉變換
特徵構造:由原始屬性提取出易於資料探勘的屬性,如根據密度分辨木頭金塊
匯**計
1.1 基於規則的分類器的工作原理 128
1.2 規則的排序方案 129
1.3 如何建立基於規則的分類器 130
1.4 規則提取的直接方法 130
1.5 規則提取的間接方法 135
1.6 基於規則的分類器的特徵 136
2.1 演算法 138
2.2 最近鄰分類器的特徵 138
3.1 貝葉斯定理 139
3.2 貝葉斯定理在分類中的應用 140
3.3 樸素貝葉斯分類器 141
3.4 貝葉斯誤差率 145
3.5 貝葉斯信念網路 147
4.1 感知器 151
4.2 多層人工神經網路 153
4.3 人工神經網路的特點 155
5.1 最大邊緣超平面 156
5.2 線性支援向量機:可分情況 157
5.3 線性支援向量機:不可分情況 162
5.4 非線性支援向量機 164
5.5 支援向量機的特徵 168
6.1 組合方法的基本原理 168
6.2 構建組合分類器的方法 169
6.3 偏倚—方差分解 171
6.4 裝袋 173
6.5 提公升 175
6.6 隨機森林 178
6.7 組合方法的實驗比較 179
7.1 可選度量 180
7.2 接受者操作特徵曲線 182
7.3 代價敏感學習 184
7.4 基於抽樣的方法 186
資料探勘筆記(1)
1 資料探勘的一種定義 是一項通過探測大量資料以發現有意義的模式和規則的業務流程。資料探勘是一種業務流程,它以其它業務流程產生的大量資料為輸入,一般經過收集,清洗,整理,識別 分析和度量等加工,得到某種有意義的模式或規則作為輸出。而這種輸出反過來可以為其它業務流程提供度量,判斷,等作用。資料探勘的基...
資料探勘筆記1
資料可以與類或概念相關聯。例如,在allelectronics 商店,銷售的商品類包括計算機和印表機,顧客概念包括bigspenders 和budgetspenders。用彙總的 簡潔的 精確的方式描述每個類和概念可能是有用的。這種類或概念的描述稱為類 概念描述。這種描述可以通過下述方法得到 1 資...
資料探勘筆記1
資料可以與類或概念相關聯。例如,在allelectronics 商店,銷售的商品類包括計算機和印表機,顧客概念包括bigspenders 和budgetspenders。用彙總的 簡潔的 精確的方式描述每個類和概念可能是有用的。這種類或概念的描述稱為類 概念描述。這種描述可以通過下述方法得到 1 資...