資料集資料預處理
相似度和相異性
簡單匹配係數
jaccard係數
余弦相似度
歐幾里得距離
例如礦石硬度、成績、街道號碼
例如日曆日期、攝氏或華氏溫度
例如絕對溫度、貨幣量、計數、年齡、質量、長度、電流
出現遺漏值的原因
處理遺漏值的策略將兩個或多個物件合併成單個物件
聚集是刪除屬性的過程,或壓縮特定屬性不同值個數的過程。
樣本是具有代表性的
抽樣方法:
簡單隨機抽樣
無放回抽樣
有放回抽樣
分層抽樣
維災難隨著資料維度的增加,許多資料分析變得非常困難,資料在它所佔據的空間中越來越稀疏
標稱的相異度d=
{0,1
,if x=
yif x≠
y d={
0,
if x=y
1,
if x≠y
相似度s=
{0,1
,if x=
yif x≠
y s={
0,
if x=y
1,
if x≠y
序數的相似度d=|
x−y|
(n−1
) d=|
x−y|
(n−1
)相似度s=
1−d s=1
−d
區間或比率的
相異度d=|
x−y|
d =|
x−y|
相似度s=
−d,s
=11+
d,s=
e−d,
s=1−
d−dm
indm
ax−d
min s=−
d,s=
11+d
,s=e
−d,s
=1−d
−dmi
ndma
x−dm
in
smc=f11+
f00f01
+f10+
f11+f
00 smc
=f11+
f00f01
+f10+
f11+f
00j=f
11f01+
f10+f
11 j=f
11f01+
f10+f
11
import numpy as np
import scipy.spatial.distance as dist
x = np.array([0, 0, 1, 1, 1])
y = np.array([0, 1, 0, 0, 1])
matv = np.array([x, y])
# print(matv)
ds = dist.pdist(matv, 'jaccard')
print(ds)
co
s(x,
y)=x
⋅y||
x||⋅
||y|
| cos
(x,y
)=x⋅
y||x
||⋅|
|y||
import numpy
x=numpy.array([3,20,3.5])
y=numpy.array([-3,34,7])
dist=numpy.dot(x,y)/((numpy.linalg
.norm(x))*(numpy.linalg
.norm(y)))
print(dist)
d(
x,y)
=∑i=
1n(x
i−yi
)2‾‾
‾‾‾‾
‾‾‾‾
‾‾⎷
d (x
,y)=
∑i=1
n(xi
−yi)
2
import numpy
x=numpy.array([3,20,3.5])
y=numpy.array([-3,34,7])
dist=numpy.sqrt(numpy.sum(numpy.square(x-y)))
print(dist)
資料探勘 資料
對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。1.1 抽樣的方法 1 簡單隨機抽樣 random sampling 放回 不放回 2 分層抽樣 stratified sampling 如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,...
3 6 11 資料探勘中的資料預處理
data mining concepts and techniques 是經典的資料探勘入門書籍,內容囊括資料探勘的基本概念 資料的預處理 資料的儲存 資料中模式的挖掘 分類 聚類 異常檢測等方面,作者是著名的韓家煒教授。資料的預處理在真實世界資料中是非常關鍵的一步,它既是不同資料探勘應用的共同起點...
SPSS Modeler資料探勘 資料探勘概述
資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...