描述分析本質是對資料的特徵進行概括,一般會表現在如下方面:
1.集中趨勢
2.離散趨勢
3.分布
概括的方式有數字和圖表,不過在此部分我們先講述數字,圖表部分在後續的資料視覺化部分說明。
變數層次一般分為三類。
定類層次
該類變數的取值只有類別屬性之分,無大小、程度之分。
定序層次
該變數的取值除了有類別屬性之分,還有等級次序之分。
定距層次
該變數的取值除了有類別屬性和次序之分,還可以用標準化的距離衡量。
乙個變數的變數層次並不是唯一的,如果變數是高層次的,它必然也可以作為低層次使用。
集中趨勢
集中趨勢是來代表資料全貌的乙個典型的變數值和特徵值。
集中趨勢的代表變數為眾值、中位數、均值。
眾值:眾值就是具有頻次最多的變數值來代表變數的集中值。
from scipy import stats
stats.mode()[
0][0
]
中位數:
位於資料序列**位置的變數值。
import numpy as np
np.median(
)
均值:
為觀察值的累加除於觀察總數。
import numpy as np
np.mean(
)
要點總結
1.眾值適合所有變數層次,中位數適用於定序和定距變數,均值適合定距變數。
但是有時求平均等級,或者賦予類別數字也可以求出特殊均值,因為我們要盡量使用均值。
2.均值靈敏度大於中位數大於眾值。
3.嚴重偏態的資料不適合均值,只有單峰和基本對稱的圖形更有意義。多峰圖形不適用這些集中趨勢。
離散趨勢
離散趨勢為資料的分散特徵。
異眾比率
資料中非眾值所佔的比率。
from scipy import stats
variation_ratio =
1-mode()[
1][0
]/len(
)
極差
極差是定序以上變數分散程度的度量,表現為資料最大值與最小值之差。
import numpy as np
r = np.
max(
)-np.
min(
)
四分互差
四分互差是下四分位數與上四分位數之差。優點是克服極值影響。
from scipy import stats as sts
q = sts.quantile(
,p=0.75
)-sts.quantile(
,p=0.25
)
方差和標準差
方差為觀察值與其均值之差的平方和除以觀察總數n,標準差為其平方根。
import numpy as np
#標準差
std = np.std(
)#方差
var = np.var(
)
離散係數
為一組資料的標準差與平均數之比。
import numpy as np
v = np.std(
)/np.mean(
)
要點總結
離散趨勢是集中趨勢的補充。
異眾比率是眾值的補充。
極差和四分互差是中位數的補充。
方差和標準差是均值的補充。
分布本質是取值的頻次。關於分布圖和表會在之後的資料視覺化部分說明。
分布的選項要完備、要互斥。
定性資料的描述性分析
import pandas as pd import numpy as np import matplotlib.pyplot as plt train pd.read csv f o2o my data ccf online stage1 train.csv train.head 5 顯示前5行資...
描述性統計分析
描述性統計分析對調查總體所有變數的有關資料進行統計性描述,主要包括資料的頻數分析 集中趨勢分析 離散程度分析 分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一 分類變數的常用描述指標 頻數 在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變數的頻數...
描述性統計分析
import numpy as np import pandas as pd from scipy import stats import os os.chdir c data 第五章 insurance pd.read csv insurance2.csv encoding utf 8 dtype...