資料探勘學習筆記(二)

2021-06-21 22:06:16 字數 3113 閱讀 2019

1        認識資料

1.1   資料物件和屬性型別

資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本、例項、資料點或物件。

1.1.1           什麼是屬性

屬性(attribute)是乙個資料字段,表示資料物件的乙個特徵。用來描述乙個給定物件的一組屬性稱做屬性向量(或特徵向量)。

1.1.2           標稱屬性

標稱屬性(nominal attribute)的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性又被看做是分類的(categorical)。這些值不必具有有意義的序。

1.1.3           二元屬性

二元屬性(binary attribute)是一種標稱屬性,只有兩個類別或狀態:0或1,其中0通常表示屬性不出現,而1表示出現。二元屬性又稱布林屬性

乙個二元屬性是對稱的,如果它的兩種狀態具有同等價值並且攜帶相同的權重;即,關於哪個結果應該用0或1編碼並無偏好。

乙個二元屬性是非對稱的,如果其狀態的結果不是同樣重要的。為方便計,我們將用1對最重要的結果編碼,而另乙個用0編碼。

1.1.4           序數屬性

序數屬性(ordinal attribute)是一種屬性,其可能的值之間具有有意義的序或秩評定(ranking),但是相繼值之間的差是未知的。

對於記錄不能客觀度量的主觀質量評估,序數屬性是有用的。

注意,標稱、二元和序數屬性都是定性的。

1.1.5           數值屬性

數值屬性(numeric attribute)是定量的,即它是可度量的量用整數或實數值表示。數值屬性可以是區間標度的或比率標度的。

1.       區間標度屬性

區間標度(interval-scaled)屬性用相等的單位尺度度量。區間屬性的值有序,可以為正、0或負。

2.       比率標度屬性

比率標度(ratio-scaled)屬性是具有固有零點的數值屬性。

1.1.6           離散屬性與連續屬性

機器學習領域開發的分類演算法通常把屬性分成離散的或連續的。

離散屬性具有有限或無限可數個值,可以用或不用整數表示。

如果屬性不是離散的,則它是連續的。

1.2   資料的基本統計描述

1.2.1           中心趨勢度量:均值、中位數和眾數

均值(mean)

加權算數均值或加權平均

截尾均值(trimmed mean)

中位數(median)

眾數(mode),資料集的眾數是集合中出現最頻繁的值。

中列數(midrange)是資料集中最大和最小值的平均值。

1.2.2           度量資料散布:極差、四分位數、方差、標準差和四分位數極差

1.       極差、四分位數和四分位數極差

極差(range)是最大值與最小值之差。

分位數(quantile)是取自資料分布的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。

四分位數(quartile)

百分位數(percentile)

四分位數極差:iqr=q1-q3

2.       五數概括、盒圖與離群點

分布的五數概括(five-numbersummary)由中位數(q2)、四分位數q1和q3、最小和最大觀測值組成,按次序minimum, q1, median, q3,maximum寫出。

盒圖(boxplot)是一種流行的分布的直觀表示。

3.       方差和標準差

方差和標準差都是資料散布度量,它們指出資料分布的散布程度。

1.2.3           資料的基本統計描述的圖形顯示

1.       分位數圖(quantile plot)

2.       分位數-分位數圖(quantile-quantile plot)

3.       直方圖(histogram, frequency histogram)

4.       散點圖(scatter plot)與資料相關

1.3   資料視覺化

資料視覺化(data visualization)旨在通過圖形表示清晰有效地表達資料。

1.3.1           基於畫素的視覺化技術

1.3.2           幾何投影視覺化技術

1.3.3           基於圖符的視覺化技術

切爾諾夫臉(chernoff faces)

人物線條畫(stick figure)

1.3.4           層次視覺化技術

世界中的世界(worlds-within-worlds)

樹圖(tree-map)

1.3.5           視覺化複雜物件和關係

標籤雲(tag cloud)

1.4   度量資料的相似性和相異性

1.4.1           資料矩陣與相異性矩陣

資料矩陣(data matrix),或稱物件-屬性結構

相異性矩陣(dissimilarity matrix),或稱物件-物件結構

1.4.2           標稱屬性的鄰近性度量

1.4.3           二元屬性的鄰近性度量

1.4.4           數值屬性的相異性:閔可夫斯基距離

歐幾里得距離、曼哈頓距離和閔可夫斯基距離

1.4.5           序數屬性的鄰近性度量

1.4.6           混合型別屬性的相異性

1.4.7           余弦相似性

《資料探勘導論》學習筆記(二)

資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...

資料探勘導論學習筆記(二)

第三章 探索資料 匯 計 量化的 如均值和標準差 用單個數或數的小集合捕獲可能很大的值集的各種特徵。頻率 具有屬性值vi的物件數 總數 分類屬性的眾數就是具有最高頻率的值。百分位數 給定乙個有序的或連續的屬性x和0到100之間的數p,第p個百分位數xp是乙個x值,似的x的p 的觀測值小於xp。值集位...

《資料探勘導論》學習筆記(二)

資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...