資料探勘中的資料

2021-08-20 03:07:24 字數 2222 閱讀 1265

資料集資料預處理

相似度和相異性

簡單匹配係數

jaccard係數

余弦相似度

歐幾里得距離

例如礦石硬度、成績、街道號碼

例如日曆日期、攝氏或華氏溫度

例如絕對溫度、貨幣量、計數、年齡、質量、長度、電流

出現遺漏值的原因

處理遺漏值的策略將兩個或多個物件合併成單個物件

聚集是刪除屬性的過程,或壓縮特定屬性不同值個數的過程。

樣本是具有代表性的

抽樣方法:

簡單隨機抽樣

無放回抽樣

有放回抽樣

分層抽樣

維災難隨著資料維度的增加,許多資料分析變得非常困難,資料在它所佔據的空間中越來越稀疏

標稱的相異度d=

{0,1

,if x=

yif x≠

y  d={

0,

if x=y

1,

if x≠y 

相似度s=

{0,1

,if x=

yif x≠

y  s={

0,

if x=y

1,

if x≠y 

序數的相似度d=|

x−y|

(n−1

) d=|

x−y|

(n−1

)相似度s=

1−d s=1

−d

區間或比率的

相異度d=|

x−y|

d =|

x−y|

相似度s=

−d,s

=11+

d,s=

e−d,

s=1−

d−dm

indm

ax−d

min s=−

d,s=

11+d

,s=e

−d,s

=1−d

−dmi

ndma

x−dm

in

smc=f11+

f00f01

+f10+

f11+f

00 smc

=f11+

f00f01

+f10+

f11+f

00j=f

11f01+

f10+f

11 j=f

11f01+

f10+f

11

import numpy as np

import scipy.spatial.distance as dist

x = np.array([0, 0, 1, 1, 1])

y = np.array([0, 1, 0, 0, 1])

matv = np.array([x, y])

# print(matv)

ds = dist.pdist(matv, 'jaccard')

print(ds)

co

s(x,

y)=x

⋅y||

x||⋅

||y|

| cos

(x,y

)=x⋅

y||x

||⋅|

|y||

import numpy

x=numpy.array([3,20,3.5])

y=numpy.array([-3,34,7])

dist=numpy.dot(x,y)/((numpy.linalg

.norm(x))*(numpy.linalg

.norm(y)))

print(dist)

d(

x,y)

=∑i=

1n(x

i−yi

)2‾‾

‾‾‾‾

‾‾‾‾

‾‾⎷

d (x

,y)=

∑i=1

n(xi

−yi)

2

import numpy

x=numpy.array([3,20,3.5])

y=numpy.array([-3,34,7])

dist=numpy.sqrt(numpy.sum(numpy.square(x-y)))

print(dist)

資料探勘 資料

對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。1.1 抽樣的方法 1 簡單隨機抽樣 random sampling 放回 不放回 2 分層抽樣 stratified sampling 如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,...

3 6 11 資料探勘中的資料預處理

data mining concepts and techniques 是經典的資料探勘入門書籍,內容囊括資料探勘的基本概念 資料的預處理 資料的儲存 資料中模式的挖掘 分類 聚類 異常檢測等方面,作者是著名的韓家煒教授。資料的預處理在真實世界資料中是非常關鍵的一步,它既是不同資料探勘應用的共同起點...

SPSS Modeler資料探勘 資料探勘概述

資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...