第三章 探索資料
匯**計:量化的(如均值和標準差),用單個數或數的小集合捕獲可能很大的值集的各種特徵。
頻率:具有屬性值vi的物件數/總數
分類屬性的眾數就是具有最高頻率的值。
百分位數:給定乙個有序的或連續的屬性x和0到100之間的數p,第p個百分位數xp是乙個x值,似的x的p%的觀測值小於xp。
值集位置的度量:
(1)均值:平均值,對於離群值比較敏感
(2)中位數
截斷均值:指0到100之間的百分位數p,丟棄高階和低端的p/2%的資料,然後用常規方法計算均值,就是階段均值。
中位數是p=100的階段均值,標準均值是p=0的階段均值。
散布度量:
(1)極差:最大值減去最小值
(2)方差或標準差
因為均值可能被離群值扭曲,所以方差也可能對離群值敏感
更穩健的估計為:絕對平均偏差,中位數絕對偏差,四分位數極差
視覺化:指以圖形或**的形式顯示資訊。目標是視覺化資訊的人工解釋和資訊的意境模型的形成。
(1)將資訊對映成視覺化形式,即將資訊中的物件屬性和聯絡對映成可是的物件屬性和聯絡。
物件用三種方法表示:
一:如果只考慮物件的單個分類屬性,則通常根據該屬性的值將物件聚成類,並且把類作為表的項或螢幕的區域顯示。
二:如果物件具有多個屬性,則可以將物件顯示為標的一行(或列),或顯示為圖的一條線。
三:物件常常解釋為二維或三維空間中的點,起鬨點可能用幾何圖形表示。
屬性,其表示依賴的屬性的型別。
序數和連續的屬性可以對映成連續的,有序的圖形特徵
分類屬性,每個類別可以對映到乙個不同的位置,顏色形狀,方位,修飾物或表的列。
標稱屬性,要小心,因為無序。
(2)選擇:即刪除或不突出某些物件和屬性。
視覺化技術
一 少量屬性的視覺化
1 莖葉圖:用來窺視一維整型或連續資料的分布。
例:35,36,41,56 莖是高位數字,葉是地位數字。垂直繪製莖,水平繪製葉。
2 直方圖:通過將可能的值分散到箱中,並顯示每個箱中的個數,直方圖顯示屬性值的分布。
一旦有了每個箱的計數,就可以構造條形圖。
二維直方圖:每個屬性劃分成區間,而每個區間集定義值的二維長方體。
3 盒狀圖:顯示一維數值屬性值分布的方法。
4 餅圖:通常用於相對較少的值的分類屬性
累計分布函式:顯示點小於該值的概率
經驗累計分布函式:顯示小於該值的點的百分比。由於點的個數是有限的,經驗累積分布函式是乙個階梯函式。
5 散布圖:使用資料物件兩個屬性的值作為x,y座標值,每個資料物件都作為平面上的乙個點繪製。
用途:(1)圖形化的顯示兩個屬性之間的關係
(2)當類標號給出時,可以使用散布圖考慮兩個屬性將類分開的程度。
二 視覺化時間空間資料
1 等高線圖:將平面劃分成一些區域,區域中的第三個屬性的值粗略相等
2 曲面圖:使用兩個屬性表示x,y座標,曲面圖的第三個屬性用來指示高出前兩個屬性定義的平面的高度。
3 向量場圖:乙個同時顯示方向和量的圖
4 低維切片
5 動畫:顯示資料的相繼二維切片
三 視覺化高維資料
1 矩陣
2 平行座標系:每個屬性乙個座標軸
3 星形座標
視覺化注意事項
1 理解 2 清晰性 3一致性 4 有效性 5必要性 6 真實性
表形式表示的資料集建立多維資料表示的過程:
(1)確定用作維的分類屬性以及用作分析目標的定量屬性。
(2)將表的每一行(物件)對映到多維陣列的乙個單元,單元的下標由被選作維的屬性的值指定,而單元的值是目標屬性的值,假定沒有被資料定義的單元的值為0。
用多維陣列表示資料需要兩個步驟:維的識別 分析所關注的屬性的識別
資料立方體:資料的多維表示,連同所有可能的總和(聚集)稱作資料立方體。
轉軸:指在除兩個維以外的所有維上聚集。
切片:通過對乙個或多個維指定特定的,從整個多維陣列中選擇乙個單元。
切塊:通過指定屬性值區間選擇單元子集,這等價於由整個陣列定義子陣列。
上捲:每天銷售–>按月聚集
下鑽:每月銷售–>分解成日銷售總和
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...
《資料探勘導論》學習筆記
寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...