資料探勘 第2章 資料

2021-10-04 09:18:10 字數 2427 閱讀 3881

二、資料質量

三、資料預處理

四、相似性和相異性度量

1)基本概念

資料:資料集可以看做資料物件的集合。

資料物件有時也叫做記錄、點、向量、模式、案例、樣本、觀測或實體。

資料物件用一組刻畫物件基本特性的屬性描述。

屬性有時也叫做變數、特性、字段特徵

通常,資料集是乙個檔案,其中物件是檔案的記錄,而每個字段對應於乙個屬性。

屬性:物件的性質或特性,它因物件而異,或隨時間而變化。

屬性並非數字或符號。為了討論和精細地分析物件的特性,我們為它們賦予了數字或符號。為了用一種明確定義的方式做到這一點,我們需要測量標度。

2)屬性的型別

屬性的性質不必與用來度量它的值的性質相同。

換句話說,用來代表屬性的值可能具有不同於屬性本身的性質,並且反之亦然。

通常將屬性的型別稱作測量標度的型別。

屬性的型別取決於下列4種數值性質: 屬性值(數值)的性質

4種屬性型別

標稱examples: 郵編、雇員id

序數examples: 成績、街道號碼、年齡分老中青年

區間examples: 日期、溫度用出生年份表示雇員年齡

比率examples: 絕對溫度、長度、年齡、計數百分制表示學生分數

屬性的型別不同,允許的操作不同

用值的個數描述屬性:離散vs連續屬性

3)資料集的一般特性

維度

資料集的維度是資料集中的物件具有的屬性數目

維災難 維歸約–即降維

稀疏性

如具有非對稱特徵的資料集,乙個物件的大部分屬性上的值都為0

只儲存和處理非零值

解析度

資料的模式依賴於解析度——度量尺度(scale)

在數公尺的解析度下,地球表面看上去很不平坦,但在數十公里的解析度下卻相對平坦

小時標度下的氣壓變化反映風暴或其他天氣系統的移動;在月標度下,這些現象就檢測不到

4)資料集型別(三大類)

記錄資料

資料矩陣、文字資料[每篇文件可以表示成乙個文件-詞矩陣]、事務資料

基於圖形(graph)的資料

有序(ordered)資料:空間資料、時間資料、 序列資料

資料探勘常常不能「在資料源頭控制質量」。由於無法避免資料質量問題,因此資料探勘著眼於兩個方面:

①資料質量問題的檢測和糾正 -->資料清理   ②使用可以容忍低質量資料的演算法

資料中可能存在的問題

雜訊和偽像、離群點、遺漏值、不一致的值、重複的值

資料預處理方法:聚集、抽樣、維歸約、特徵子集選擇、特徵構造、離散化與二元化、屬性變換

bingo~   ✨ 我此刻謝幕,是為參演你的未來

資料探勘概念與技術 第2章

1 資料屬性 標稱屬性 類別型屬性,不同類別間無法比較順序,如 職業類別,顏色類別等 二元屬性 只有兩個類別,0表示屬性不出現,1表示出現 如,是否抽菸等 對稱的二元屬性 兩種狀態有相同的價值,攜帶相同的權重,如性別的男女屬於對稱的二元屬性 一般 標識性別時男為1,女為0 非對稱的二元屬性 兩種狀態...

Python資料探勘 第3章 資料探索

離群點 異常值 定義為小於ql 1.5iqr或大於qu 1.5iqr import pandas as pd catering sale data catering sale.xls 餐飲資料 data pd.read excel catering sale,index col u 日期 讀取資料,...

第2章 資料抽象

2.1 宣告與定義 宣告 向計算機介紹名字,不分配儲存空間,使用關鍵字extern,函式宣告 可以不用extern,只用不帶函式體的函式名連同參數列或返回值。定義 為這個變數或者函式申請儲存空間,對變數,編譯器確定它占用多少儲存單元,在記憶體中產生存放它們的空間 對函式,編譯器產生 並為之分配儲存空...