2.1 資料物件與屬性型別
2.1.1 什麼是屬性
2.1.2 標稱屬性:其值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性又被看作是分類的。
標稱屬性不是定量的,找出它的均值或中位數沒有意義,有意義的是找到眾數,是一種中心趨勢度量。
2.1.3 二元屬性:是一種標稱屬性,只有兩個類別或狀態:0或1,也稱布林屬性。
二元屬性可以是對稱的:關於哪個結果應該用0或1並無偏好。
二元屬性可以是非對稱的:其狀態結果不是同樣重要的,如陽性或陰性。為方便計,將用1對重要的結果編碼,另乙個用0編碼。
2.1.4 序數屬性:其可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的。比如,大、中、小;優、良、中、及格;很不滿意、不太滿意、中性、滿意、很滿意。
序數屬性的中心趨勢可以用它的眾數和中位數表示,但不能定義均值。
2.1.5 數值屬性:可以是區間標度或比率標度
1.區間標度屬性:用相等的單位尺度度量。區間屬性的值有序,可以為正、0或負。可以計算中位數和眾數,還可以計算均值。
2.比率標度屬性:是具有固有零點的數值屬性。可以計算差、均值、中位數和眾數。
2.1.6 離散屬性與連續屬性
2.2 資料的基本統計描述
2.2.1 中心趨勢度量:均值、中位數和眾數
均值:對極端值過於敏感
加權算術均值或加權平均:
截尾均值:丟棄高低極端值後的均值。
中位數:有序資料值的中間值。
眾數:中列數:最大和最小值的平均值
正傾斜:眾數出現在小於中位數的值上。
負傾斜:眾數出現在大於中位數的值上。
2.2.2 度量資料散布:極差、四分位數、方差、標準差和四分位數極差
1.極差、四分位數和四分位數極差
極差:最大值與最小值之差
分位數:把資料劃分成基本大小相等的連貫集合。
四分位數:分成4部分。
百分位數:分成100個大小相等的連貫集。
第乙個四分位數:q1,第25個百分位數
第三個四分位數:q3,第75個百分位數
四分位數極差iqr:q3-q1
2.五數概括、盒圖與離群點
識別可疑離群點的通常規則:挑選落在第3個四分位數之上或第1個四分位數之下1.5*iqr處的值。
五數概括:中位數,q1,q2,最小和最大值。
3.方差和標準差
低標準差意義資料觀測趨向於非常靠近的均值,而高標準差表示資料散布在乙個大的值域中。
標準差方差
2.2.3 資料的基本統計描述的圖形顯示
1.分位數圖
2.分位數-分位數圖
3.直方圖:
4.散點圖:確定兩個數值變數之間看上去是否存在聯絡、模式或趨勢的最有效圖形方法之一。
2.3 資料視覺化
2.4 度量資料的相似性和相異性
2.4.1 資料矩陣與相異性矩陣
2.4.2 標稱屬性的鄰近性度量
不匹配率:d(i,j)=(p-m)/p p是刻畫物件的屬性總數,m是匹配的數目
相似性:sim(i,j)=1-d(i,j)=m/p
2.4.3 二元屬性的鄰近性度量
r:i中取1,j中取0的屬性數
s:i中取0,j中取1的屬性數
q:i,j中都取1的屬性數
t:i,j中都取0的屬性數
對稱的二元相異性:d(i,j)=(r+s)/(q+r+s+t)
非對稱的二元相異性:d(i,j)=(r+s)/(q+r+s)
非對稱的二元相似性:sim(i,j)=q/(q+r+s)=1-d(i,j),也稱為jaccard係數
2.4.4 數值屬性的相異性:閔可夫斯基距離
歐幾里得距離:
加權的歐幾里得距離:
曼哈頓距離:
它們具有如下數學性質:
非負性:
同一性:物件到自身的距離是0
對稱性:距離是乙個對稱函式
三角不等式:從物件i到物件j的直接距離不會大於途徑任何其他物件k的距離。
閔可夫斯基距離:
2.4.5 序數屬性的鄰近性度量
2.4.6 混合型別屬性的相異性
2.4.7 余弦相似性
上確界距離(切比雪夫距離)
習題:r語言版
2.2 假設所分析的資料報括屬性age,它在資料元組中的值為13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70
a)均值?中位數?
b)眾數?
c)中列數?
d)q1,q3?
e)五數?
f)盒圖?
#出迴圈後i+1為中位數區間所在下標,即20~50
20+((sum(data)/2+sum)/data[i+1])*30
2.4
age2.6)fat
)mean(age)
median(age)
sd(age)
mean(fat)
median(fat)
sd(fat)
barplot(table(age))
barplot(table(fat))
plot(age,fat)
qqplot(age,fat)
v12.8a))sqrt(sum((v1-v2)^2
)) #歐幾里德
sum(abs(v1-v2)) #曼哈頓距離
(sum(abs(v1-v2)^3))^(1/3
) #閔可夫斯基
max(abs(v1-v2)) #上確界距離
a1)dataxm
ucofor(i in
1:nrow(data))
rank(e)
rank(m)
rank(u)
rank(co)
資料探勘概念與技術 讀書筆記(1)
原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...
資料探勘概念與技術 讀書筆記(2)
原書第三版 jiawei han micheline kamber jian pei 著 在進行資料探勘之前,首先需要準備好資料,熟悉資料。乙個資料物件代表乙個實體,又稱樣本 例項 資料點或物件。屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維 特徵和變數。二元屬性 一種標稱屬性 又稱布林屬性 序...
讀書筆記 資料探勘概念與技術 資料預處理
資料預處理的目的 提高資料質量,資料質量的三要素 準確性 完整性 一致性。資料預處理的任務 資料清理 填充缺失的值 光滑雜訊 識別離群點 糾正資料中的不一致 忽略元組 人工填寫缺失值 使用乙個全域性常量 使用屬性的中心度量 使用與給定元組屬同一類的所有樣本的屬性均值或中位數 使用最可能的值 最流行 ...