資料探勘概念與技術 學習筆記2 認識資料

2021-06-19 01:11:08 字數 856 閱讀 8893

資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本、例項、資料點或物件。如資料物件存放在資料庫中,則是資料元組,即行對應資料物件,列對應屬性。

屬性的型別有:標稱屬性、二元屬性、序數屬性、數值屬性。

中心趨勢度量:度量資料分布的中部或中心位置。有均值、中位數(若為數值型別且有偶數個資料,取中間兩數的均值)、眾數(出現次數最多的數)、中列數(最大和最小值的平均值)。

資料的散布:極差(最大值與最小值之差)、四分位數(遞增序排列,1/4、2/4、3/4處的資料,分別表示為q1、q2、q3)、四分位數極差(q3與q1的差)、五數概括(中位數q2、四分位數q1、q3、最小值、最大值)、盒圖。還有方差、標準差。

識別可疑的離群點通常規則是:挑選落在第3個四分位數q3之上或第1個四分位數之下至少1.5x(q3-q1)處的值。

資料的相似性和相異性:在聚類、離群點分析和最近鄰分類等資料探勘應用中,我們需要評估物件間的相似或不相似程式。

中心趨勢度量和資料的散布都是對單一屬性的刻畫。

資料矩陣:nxp矩陣,n是物件個數,p是屬性個數。類似於資料庫表,每一行代表乙個物件,每一列代表乙個屬性。這些物件可以是關聯式資料庫的元組,也稱資料樣本或特徵向量。

相異性矩陣:存放n個物件兩兩之間的鄰近度,nxn矩陣,只在主對角線左下方有資料。資料值為d(i,j),表示物件i和j的相異性。

標稱屬性的鄰近性度量:d(i,j)=(p-m)/p,p指屬性個數,m指兩個物件相同的屬性個數。

數值屬性的相異性:歐幾里得距離(類似於空間兩點間距離)、曼哈頓距離(兩物件各屬性差的絕對值的和)、閔可夫斯基距離(各屬性的差的絕對值的p次方,求其和後再開p次方,我們保留p為屬性數)。

數值屬性,上確界距離:屬性差的絕對值的最大值。

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...

資料探勘概念與技術 讀書筆記(2)

原書第三版 jiawei han micheline kamber jian pei 著 在進行資料探勘之前,首先需要準備好資料,熟悉資料。乙個資料物件代表乙個實體,又稱樣本 例項 資料點或物件。屬性是乙個資料字段,表示資料物件的乙個特徵,又稱維 特徵和變數。二元屬性 一種標稱屬性 又稱布林屬性 序...

資料探勘概念與技術

在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...