描述定量資料的數值法
中心趨勢的度量
變異性的度量
相對位置的度量
檢測異常值的方法
reference
對給定的類,類(或組)頻數是指落入這個類中的觀測值的個數。
對給定的類,類(或組)相對頻率是指落入這個類中的觀測值個數相對於觀測值總數的比例。
定性資料的圖形描述常用條形圖,餅圖和帕雷託圖。
條形圖:給出相應每一類的頻數(或相對頻率),長方形的高度或長度與類頻數(或相對頻率)成比例。
餅圖:把乙個整圓(餅)分成幾份,每乙份代表乙個類,每份中心角與類相對頻率成比例。
帕雷託圖:將定性變數(即長方形)的類(組)按照高度從左向右降序排列的條形圖。
帕雷託圖以義大利經濟學家 vilfredo pareto 命名。
定量資料集是由某種有意義的數值標度的資料組成。為了描述、總結和檢測這些資料的模型,我們可以採用三種圖形法:點圖、莖葉圖和直方圖。
資料集中每乙個定量測量的數值表示為水平刻度尺上的乙個點,當數值重複時,點垂直畫在另乙個點之上。
定量變數的數值分為莖和葉兩部分,可能的莖按順序排在一列中,資料集中每一定量測量值的葉放在相應莖的行上,有相同莖的觀測值的葉在水平方向按公升序排列。
莖是測量值小數點左邊的部分,葉是剩下的小數點右邊的部分。
定量變數的可能數值被分成若干組區間,其中每一區間有相同的寬度,這些區間構成了水平軸刻度。確定落在每一組區間中的觀測值的頻數或相對頻率。每一組區間上放乙個垂直的長方形,它的高度或者等於頻數或者等於相對頻率。
三種型別的度量
兩個定義
算數平均、中位數和眾數是三種最常用的中心趨勢度量。
資料變異性最常用度量是極差、方差和標準差。
經驗法則
若乙個資料集有近似丘形的對稱分布,則可用以下的經驗法則描述資料集:
1. 大約68%的測量值位於均值的1個標準差範圍內
2. 大約95%的測量值位於均值的2個標準差範圍內
3. 幾乎所有的測量值位於均值的3個標準差範圍內
觀測值相對位置的兩個度量是百分位數和
z z
得分。定義
資料集的第
100p
' role="presentation" style="position: relative;">100
p100
p百分位數是這樣乙個
y y
值:使得在資料集的相對頻率分布中有
100p
%' role="presentation" style="position: relative;">100p%
100p
%的面積位於它的左邊,有
100(1−
p)% 100(1
−p)%
的面積位於它的右邊(其中,0≤
p≤1 0≤p
≤1
)。中位數是第50百分位數。
對乙個資料集而言,第25百分位數、中位數、第75百分位數分別稱作下四分位數,中四分位數和上四分位數。
五數概括(five-number summary)由中位數、四分位數(上、下四分位數)、最小和最大觀測值組成。
定義
乙個資料集中
y y
值的z' role="presentation" style="position: relative;">z
z得分是以標準差為單位度量
y y
位於均值之上或之下的距離。樣本z
' role="presentation" style="position: relative;">z
z得分:z=
y−y¯
s z=y
−y¯s
其中,y¯
y
¯是樣本均值,
s s
是樣本標準差。總體z
' role="presentation" style="position: relative;">z
z得分: z=
y−μσ
z =y
−μ
σ其中,
μ μ
是總體均值,
σ σ
是總體標準差。
定義
相對於資料集中其他值不尋常地大或小的觀測值
y y
稱為異常值。一般異常值歸咎於下列原因之一:
1. 觀測、記錄或輸入計算機時不正確的測量值
2. 測量值來自不同的總體
3. 觀測值是正確的,但是代表乙個稀有(偶然)事件
經驗法則表明,資料集中幾乎所有觀測值的
z' role="presentation" style="position: relative;">z
z得分絕對值小於3。
盒圖(boxplot)是一種流行的分布的直觀表示。盒圖體現了五數概括:
- 盒的端點一般在四分位數上,使得盒的長度是四分位數極差(間距)iqr
- 中位數用盒內的線標記
- 盒外的兩條線(稱作鬍鬚)延伸到最小和最大觀測值。
定義
四分位數間距iqr是上四分位數和下四分位數的距離:iq
r=qu
−ql iqr
=qu−
ql
內籬笆下
側內籬笆
=ql−
1.5(iq
r)下側內籬笆=q
l−
1.5(iq
r)
上側側內籬笆=
qu+1.5(i
qr) 上側側內籬笆=q
u+
1.5(iq
r)
外籬笆下
側外籬笆
=ql−
3(iq
r)下側外籬笆=q
l−3(
iqr)
上側外籬笆=q
u+3(
iqr)
上側外籬笆=q
u+3(
iqr)
統計學資料探勘概念與技術
描述性統計分析
描述性統計分析對調查總體所有變數的有關資料進行統計性描述,主要包括資料的頻數分析 集中趨勢分析 離散程度分析 分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一 分類變數的常用描述指標 頻數 在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變數的頻數...
描述性統計分析
import numpy as np import pandas as pd from scipy import stats import os os.chdir c data 第五章 insurance pd.read csv insurance2.csv encoding utf 8 dtype...
關於描述性統計分析
在資料分析的時候,一般首先要對資料進行描述性統計分析 descriptive analysis 以發現其內在的規律,再選擇進一步分析的方法。描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析 資料的集中趨勢分析 資料離散程度分析 資料的分布 以及一些基本的統計圖形。1 ...