3 描述性統計分析

2021-08-20 14:59:35 字數 3448 閱讀 6866

描述定量資料的數值法

中心趨勢的度量

變異性的度量

相對位置的度量

檢測異常值的方法

reference

對給定的類,類(或組)頻數是指落入這個類中的觀測值的個數。

對給定的類,類(或組)相對頻率是指落入這個類中的觀測值個數相對於觀測值總數的比例。

定性資料的圖形描述常用條形圖餅圖帕雷託圖

條形圖:給出相應每一類的頻數(或相對頻率),長方形的高度或長度與類頻數(或相對頻率)成比例。

餅圖:把乙個整圓(餅)分成幾份,每乙份代表乙個類,每份中心角與類相對頻率成比例。

帕雷託圖:將定性變數(即長方形)的類(組)按照高度從左向右降序排列的條形圖。

帕雷託圖以義大利經濟學家 vilfredo pareto 命名。

定量資料集是由某種有意義的數值標度的資料組成。為了描述、總結和檢測這些資料的模型,我們可以採用三種圖形法:點圖、莖葉圖和直方圖。

資料集中每乙個定量測量的數值表示為水平刻度尺上的乙個點,當數值重複時,點垂直畫在另乙個點之上。

定量變數的數值分為莖和葉兩部分,可能的莖按順序排在一列中,資料集中每一定量測量值的葉放在相應莖的行上,有相同莖的觀測值的葉在水平方向按公升序排列。

莖是測量值小數點左邊的部分,葉是剩下的小數點右邊的部分。

定量變數的可能數值被分成若干組區間,其中每一區間有相同的寬度,這些區間構成了水平軸刻度。確定落在每一組區間中的觀測值的頻數或相對頻率。每一組區間上放乙個垂直的長方形,它的高度或者等於頻數或者等於相對頻率。

三種型別的度量

兩個定義

算數平均中位數眾數是三種最常用的中心趨勢度量。

資料變異性最常用度量是極差方差標準差

經驗法則

若乙個資料集有近似丘形的對稱分布,則可用以下的經驗法則描述資料集:

1. 大約68%的測量值位於均值的1個標準差範圍內

2. 大約95%的測量值位於均值的2個標準差範圍內

3. 幾乎所有的測量值位於均值的3個標準差範圍內

觀測值相對位置的兩個度量是百分位數和

z z

得分。定義

資料集的第

100p

' role="presentation" style="position: relative;">100

p100

p百分位數是這樣乙個

y y

值:使得在資料集的相對頻率分布中有

100p

%' role="presentation" style="position: relative;">100p%

100p

%的面積位於它的左邊,有

100(1−

p)% 100(1

−p)%

的面積位於它的右邊(其中,0≤

p≤1 0≤p

≤1

)。中位數是第50百分位數。

對乙個資料集而言,第25百分位數、中位數、第75百分位數分別稱作下四分位數中四分位數上四分位數

五數概括(five-number summary)由中位數、四分位數(上、下四分位數)、最小和最大觀測值組成。

定義

乙個資料集中

y y

值的z' role="presentation" style="position: relative;">z

z得分是以標準差為單位度量

y y

位於均值之上或之下的距離。樣本z

' role="presentation" style="position: relative;">z

z得分:z=

y−y¯

s z=y

−y¯s

其中,y¯

y

¯是樣本均值,

s s

是樣本標準差。總體z

' role="presentation" style="position: relative;">z

z得分: z=

y−μσ

z =y

−μ

σ其中,

μ μ

是總體均值,

σ σ

是總體標準差。

定義

相對於資料集中其他值不尋常地大或小的觀測值

y y

稱為異常值。一般異常值歸咎於下列原因之一:

1. 觀測、記錄或輸入計算機時不正確的測量值

2. 測量值來自不同的總體

3. 觀測值是正確的,但是代表乙個稀有(偶然)事件

經驗法則表明,資料集中幾乎所有觀測值的

z' role="presentation" style="position: relative;">z

z得分絕對值小於3。

盒圖(boxplot)是一種流行的分布的直觀表示。盒圖體現了五數概括:

- 盒的端點一般在四分位數上,使得盒的長度是四分位數極差(間距)iqr

- 中位數用盒內的線標記

- 盒外的兩條線(稱作鬍鬚)延伸到最小和最大觀測值。

定義

四分位數間距iqr是上四分位數和下四分位數的距離:iq

r=qu

−ql iqr

=qu−

ql

內籬笆

側內籬笆

=ql−

1.5(iq

r)下側內籬笆=q

l−

1.5(iq

r)

上側側內籬笆=

qu+1.5(i

qr) 上側側內籬笆=q

u+

1.5(iq

r)

外籬笆

側外籬笆

=ql−

3(iq

r)下側外籬笆=q

l−3(

iqr)

上側外籬笆=q

u+3(

iqr)

上側外籬笆=q

u+3(

iqr)

統計學資料探勘概念與技術

描述性統計分析

描述性統計分析對調查總體所有變數的有關資料進行統計性描述,主要包括資料的頻數分析 集中趨勢分析 離散程度分析 分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一 分類變數的常用描述指標 頻數 在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變數的頻數...

描述性統計分析

import numpy as np import pandas as pd from scipy import stats import os os.chdir c data 第五章 insurance pd.read csv insurance2.csv encoding utf 8 dtype...

關於描述性統計分析

在資料分析的時候,一般首先要對資料進行描述性統計分析 descriptive analysis 以發現其內在的規律,再選擇進一步分析的方法。描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析 資料的集中趨勢分析 資料離散程度分析 資料的分布 以及一些基本的統計圖形。1 ...