資料探勘第二章 認識資料

2021-10-21 21:39:52 字數 1369 閱讀 4272

2.4 度量資料的相似性和相異性

資料物件 - 實體

屬性 - 描述資料物件,資料物件的乙個特徵

屬性的型別:

標稱屬性nominal attribute

二元屬性binary attribute

序數屬性ordinal attribute

數值屬性numeric attribute

區間標度屬性

比率標度屬性

離散屬性連續屬性均值

中位數(非對稱/傾斜資料:正傾斜、負傾斜)

眾數 中列數:最大和最小值的平均值

極差、四分位數和四分位數極差iqr(散布度量)

五數概括、盒圖與離群點(傾斜分布)

方差和標準差(散布度量)

分位數圖quantile plot

分位數-分位數圖

直方圖

資料矩陣:

相異性矩陣:

d (i

,j)=

p−ki

mp

d(i,j)=\frac

d(i,j)

=pp−

ki​m​對稱

:d(i

,j)=

r+sq

+r+s

+t非對

稱:d(

i,j)

=r+s

q+r+

s對稱:d(i,j)=\frac\\ 非對稱:d(i,j)=\frac

對稱:d(i

,j)=

q+r+

s+tr

+s​非

對稱:d

(i,j

)=q+

r+sr

+s​替換排位

規格化求距離

分別求相異性然後相加除

係數矩陣,忽略0匹配的數值資料度量

s im

(x,y

)=x⋅

y∣∣x

∣∣∣∣

y∣

∣sim(x,y)=\frac

sim(x,

y)=∣

∣x∣∣

∣∣y∣

∣x⋅y

​屬性是二值屬性:

s im

(x,y

)=x⋅

yx⋅x

+y⋅y

−x⋅y

sim(x,y)=\frac

sim(x,

y)=x

⋅x+y

⋅y−x

⋅yx⋅

y​

資料探勘 認識資料

越來越多的人認識到,資料對這個世界的影響越來越大,掌握資料就掌握了發言權。如何從資料中找到想要的知識,是得到資料之後最需要關心的。資料探勘,也是知識發現的過程。1 理解資料 現實世界中,各行各業每時每刻都在產生數量龐大的資料集,讓人眼花繚亂,應該怎樣理解和處理資料呢?資料集由資料物件組成,乙個資料物...

《資料探勘導論》 第二章資料

ordinal 序數 interval 區間 ratio 注 前兩類統稱為分類的或定性的屬性 後兩類 定量的或數值的。特徵值的性質 離散 連續屬性 非對稱的屬性 資料集的一般特性 大小 size 分析的型別取決於資料集的大小 記錄資料 基於圖形的資料 有序資料 遺漏值 缺失值 處理遺漏值的方法 不一...

第二單元 認識資料

下列對學生相關屬性描述中,不是標稱屬性的是 a.學號 b.婚姻狀況 c.身高 d.頭髮顏色 下列哪些選項能表示序數屬性的資料集中趨勢度量 a.四分位數 b.眾數 c.均值 d.標準差 可以觀察從乙個分布到另一分布是否有漂移。a.盒圖 b.分位數 分位數圖 c.散點圖 d.直方圖 度量作為一種測度,滿...