《資料探勘》學習筆記 認識資料 2

2021-07-11 22:43:50 字數 2102 閱讀 1699

一、資料的基本統計描述

資料的基本統計描述是為了從資料的統計結果中了解資料的大體特徵,方便對資料進行分類、梳理。其中統計的主要內容包括中心趨勢度量資料散布度量。其中中心趨勢度量主要討論的內容有均值、中位數、眾數和中列數;資料散布度量主要的內容是資料的極差、四分位數、四分位極差、五數概括、和盒圖。

二、統計度量具體內容

中心趨勢度量

1. 均值:顧名思義就是一組資料的(算術)平均值,這個量常用來度量一組資料的「中心」。例如對於一組資料:x1

,x2,

....

...,

xn。其均值則為:

x¯=∑

ni=1

xin=

x1+x

2+……

+xnn

如果對上述資料的每個值,賦以不同的權重:wi

,則為加權平均數,其計算方法為:x¯

=∑ni

=1xi

∗wi∑

ni=1

wi=x

1∗w1

+x2∗

w2+…

…+xn

∗wnw

1+w2

+……+

wn類似的,在均值中,還有一類截尾平均,即去除資料中的最大和最小值之後求得的平均值。

3. 眾數:即為在一組資料中出現頻率最高的乙個或者多個數。只有乙個眾數的資料被稱為單峰資料,其他依次可稱為雙峰三峰多峰,如果一組資料中,每個值都只出現了一次,則其沒有眾數。

4. 中列數:是一組資料的最大和最小值的平均,即xm

idra

nge=

xmax

+xmi

n2.可用來評估資料的中心趨勢。

資料散布度量

這裡的極差、四分位數、四分位數極差所討論的資料都是以從小到大有序排列的。

1. 極差:即為一組資料的最大值(max)和最小值(min)之間的差值。

2. 四分位數:分位數即表示對一組資料,每隔一定的間隔取出乙個值(資料點),並且使得這些間隔基本相等。這些位置的值即為分位數。如果把一組資料分成4份,則需要三個資料點,然後所得到的劃分即為四分位數。資料劃分中常用的還有百分位數,即將資料劃分成100份。二分位數即為中位數。

3. 四分位數極差:四分位數極差(iqr)極為將四分位數的第三個資料點(q3

)與第乙個資料點(q1

)的值作差。iq

r=q3

−q1 。

4. 五數概括:五數概括是由五個數值組成的對一組資料進行描述的值。這五個數從小到大依次是:最小

值、q1

、q2、

q3、最

大值。它的優點是可以更加完整的概括整組資料。

5. 盒圖:是一種流行的分布的直觀表示。

盒圖的端點一 般在四分位數上,使得盒圖的長度即為四分位數極差iqp;

在盒圖中,以橫線標記中位數;

盒外兩條線,稱為鬍鬚,分別標記最小值和最大值。但是盒圖的鬍鬚最多延伸到

1.5∗iq

r 處,即超出盒的上下端點

1.5∗iq

r 的值將會被認為是離群點。

盒圖的具體畫法,如下圖所示(來自網路)。

資料探勘 認識資料

越來越多的人認識到,資料對這個世界的影響越來越大,掌握資料就掌握了發言權。如何從資料中找到想要的知識,是得到資料之後最需要關心的。資料探勘,也是知識發現的過程。1 理解資料 現實世界中,各行各業每時每刻都在產生數量龐大的資料集,讓人眼花繚亂,應該怎樣理解和處理資料呢?資料集由資料物件組成,乙個資料物...

資料探勘概念與技術 學習筆記2 認識資料

資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本 例項 資料點或物件。如資料物件存放在資料庫中,則是資料元組,即行對應資料物件,列對應屬性。屬性的型別有 標稱屬性 二元屬性 序數屬性 數值屬性。中心趨勢度量 度量資料分布的中部或中心位置。有均值 中位數 若為...

大資料探勘 認識資料

資料集由資料物件組成,乙個資料物件代表乙個實體。屬性,是乙個字段,表示資料物件的乙個特徵。在文獻中,屬性 維 特徵和變數可以互換的使用。用來描述乙個給定物件的一組屬性稱做屬性向量 特徵向量 標稱意味著 與名稱相關 標稱屬性的值是一些符號或事物的名稱。每個值代表某種類別 編碼或狀態,因此標稱屬性又被看...