2.1.1 資料型別
(1)資料:狹義上,資料就是數字;廣義上,資料的定義是:資料物件及其屬性的集合,其表現形式可以是數字、符號、文字、影象等。
(2)屬性:屬性是指乙個物件的某方面性質或特徵,乙個物件往往是通過乙個或多個屬性來刻畫的,屬性也稱為特徵、維、字段。
(3)資料集:資料集指的是資料物件的集合。
2.1.2 屬性型別
屬性型別 描述
例子分類的
(定性的)
標稱 其屬性值只提供足夠的資訊以區分物件
。這種屬性值沒有實際意義
。如三個物件可以用
a,b,c
區分,也可以用甲,乙
.丙區分
顏色、性別、產品編號。 序數
其屬性值提供足夠的資訊以區分物件的序。
成績等級
(優、良、中、及格、不及格
)、年級
(一年級、二年級、三年級、四年級)
數值的 (
定量的) 區間
其屬性值之間的差是有意義的。
日曆日期、攝氏溫度 比率
其屬性值之間的差和比率都是有意義的。
長度、時間和速度
2.1.3 資料集特徵介紹
(1)維度:資料集中的物件具有的屬性個數總和。(為避免高維度導致的維度災難,因此在資料預處理中經常會使用維歸約技術降低維度)
(2)稀疏性:又是在某些資料集中,有意義的資料非常少,非0項屬性不到1%(如文明本資料集)
(3)解析度:也稱為粒度,在不同解析度下資料的性質不同。
2.1.4 資料集的屬性
(1)記錄型資料:事務資料、資料矩陣、文字資料
(2)基於圖形的資料:全球資訊網、化合物結構
(3)有序資料:時態資料、序列資料、時間序列資料、空間資料、流資料
2.1.5 資料特徵
(1)中心趨勢度量:均值、中位數、眾數、中列數。
算術平均值:
加權平均值:
截斷均值:去掉高、低極端值p/2得到的均值。
中位數:中位數針對的主要是傾斜資料。
眾數:資料集中頻率出現最高的值。
中列數:資料集中最大值和最小值的平均值。
(2)離散程度度量:極差、方差、四分位數極差
極差:最大值與最小值的差
方差:
四分位數極差(iqr):
2 1 資料型別
資料型別是指資料在計算機內部的表達和儲存形式。根據性質和用途,資料被劃分為多種不同的型別。python基本資料型別包括數值型 字串型 邏輯型等。此外,python還有列表 元組 字典和集合等復合型別。數值型資料可以分為整型 實型和複數型。python語言的整型資料即是有符號整數,不帶小數點。在pyt...
Mysql Mysql資料型別彙總
mysql資料型別 含義 有符號 tinyint m 1個位元組 範圍 128 127 smallint m 2個位元組 範圍 32768 32767 mediumint m 3個位元組 範圍 8388608 8388607 int m 4個位元組 範圍 2147483648 2147483647 ...
mysql資料型別彙總
資料型別 位元組長度 範圍或用法 bigint 8無符號 0,2 64 1 有符號 2 63 2 63 1 binary m m類似char的二進位制儲存,只包含byte串而非字串,它們沒有字符集的概念,排序和比較操作都是基於位元組的數字值 bit1 無符號 0,255 有符號 128,127 bl...