1 認識資料
1.1 資料物件和屬性型別
資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本、例項、資料點或物件。
1.1.1 什麼是屬性
屬性(attribute)是乙個資料字段,表示資料物件的乙個特徵。用來描述乙個給定物件的一組屬性稱做屬性向量(或特徵向量)。
1.1.2 標稱屬性
標稱屬性(nominal attribute)的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性又被看做是分類的(categorical)。這些值不必具有有意義的序。
1.1.3 二元屬性
二元屬性(binary attribute)是一種標稱屬性,只有兩個類別或狀態:0或1,其中0通常表示屬性不出現,而1表示出現。二元屬性又稱布林屬性。
乙個二元屬性是對稱的,如果它的兩種狀態具有同等價值並且攜帶相同的權重;即,關於哪個結果應該用0或1編碼並無偏好。
乙個二元屬性是非對稱的,如果其狀態的結果不是同樣重要的。為方便計,我們將用1對最重要的結果編碼,而另乙個用0編碼。
1.1.4 序數屬性
序數屬性(ordinal attribute)是一種屬性,其可能的值之間具有有意義的序或秩評定(ranking),但是相繼值之間的差是未知的。
對於記錄不能客觀度量的主觀質量評估,序數屬性是有用的。
注意,標稱、二元和序數屬性都是定性的。
1.1.5 數值屬性
數值屬性(numeric attribute)是定量的,即它是可度量的量用整數或實數值表示。數值屬性可以是區間標度的或比率標度的。
1. 區間標度屬性
區間標度(interval-scaled)屬性用相等的單位尺度度量。區間屬性的值有序,可以為正、0或負。
2. 比率標度屬性
比率標度(ratio-scaled)屬性是具有固有零點的數值屬性。
1.1.6 離散屬性與連續屬性
機器學習領域開發的分類演算法通常把屬性分成離散的或連續的。
離散屬性具有有限或無限可數個值,可以用或不用整數表示。
如果屬性不是離散的,則它是連續的。
1.2 資料的基本統計描述
1.2.1 中心趨勢度量:均值、中位數和眾數
均值(mean)
加權算數均值或加權平均
截尾均值(trimmed mean)
中位數(median)
眾數(mode),資料集的眾數是集合中出現最頻繁的值。
中列數(midrange)是資料集中最大和最小值的平均值。
1.2.2 度量資料散布:極差、四分位數、方差、標準差和四分位數極差
1. 極差、四分位數和四分位數極差
極差(range)是最大值與最小值之差。
分位數(quantile)是取自資料分布的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。
四分位數(quartile)
百分位數(percentile)
四分位數極差:iqr=q1-q3
2. 五數概括、盒圖與離群點
分布的五數概括(five-numbersummary)由中位數(q2)、四分位數q1和q3、最小和最大觀測值組成,按次序minimum, q1, median, q3,maximum寫出。
盒圖(boxplot)是一種流行的分布的直觀表示。
3. 方差和標準差
方差和標準差都是資料散布度量,它們指出資料分布的散布程度。
1.2.3 資料的基本統計描述的圖形顯示
1. 分位數圖(quantile plot)
2. 分位數-分位數圖(quantile-quantile plot)
3. 直方圖(histogram, frequency histogram)
4. 散點圖(scatter plot)與資料相關
1.3 資料視覺化
資料視覺化(data visualization)旨在通過圖形表示清晰有效地表達資料。
1.3.1 基於畫素的視覺化技術
1.3.2 幾何投影視覺化技術
1.3.3 基於圖符的視覺化技術
切爾諾夫臉(chernoff faces)
人物線條畫(stick figure)
1.3.4 層次視覺化技術
世界中的世界(worlds-within-worlds)
樹圖(tree-map)
1.3.5 視覺化複雜物件和關係
標籤雲(tag cloud)
1.4 度量資料的相似性和相異性
1.4.1 資料矩陣與相異性矩陣
資料矩陣(data matrix),或稱物件-屬性結構
相異性矩陣(dissimilarity matrix),或稱物件-物件結構
1.4.2 標稱屬性的鄰近性度量
1.4.3 二元屬性的鄰近性度量
1.4.4 數值屬性的相異性:閔可夫斯基距離
歐幾里得距離、曼哈頓距離和閔可夫斯基距離
1.4.5 序數屬性的鄰近性度量
1.4.6 混合型別屬性的相異性
1.4.7 余弦相似性
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...
資料探勘導論學習筆記(二)
第三章 探索資料 匯 計 量化的 如均值和標準差 用單個數或數的小集合捕獲可能很大的值集的各種特徵。頻率 具有屬性值vi的物件數 總數 分類屬性的眾數就是具有最高頻率的值。百分位數 給定乙個有序的或連續的屬性x和0到100之間的數p,第p個百分位數xp是乙個x值,似的x的p 的觀測值小於xp。值集位...
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...