驗證性分析 描述性分析

2021-10-05 05:27:56 字數 1959 閱讀 5417

描述分析本質是對資料的特徵進行概括,一般會表現在如下方面:

1.集中趨勢

2.離散趨勢

3.分布

概括的方式有數字和圖表,不過在此部分我們先講述數字,圖表部分在後續的資料視覺化部分說明。

變數層次一般分為三類。

定類層次

該類變數的取值只有類別屬性之分,無大小、程度之分。

定序層次

該變數的取值除了有類別屬性之分,還有等級次序之分。

定距層次

該變數的取值除了有類別屬性和次序之分,還可以用標準化的距離衡量。

乙個變數的變數層次並不是唯一的,如果變數是高層次的,它必然也可以作為低層次使用。

集中趨勢

集中趨勢是來代表資料全貌的乙個典型的變數值和特徵值。

集中趨勢的代表變數為眾值、中位數、均值。

眾值:眾值就是具有頻次最多的變數值來代表變數的集中值。

from scipy import stats

stats.mode()[

0][0

]

中位數:

位於資料序列**位置的變數值。

import numpy as np

np.median(

)

均值:

為觀察值的累加除於觀察總數。

import numpy as np

np.mean(

)

要點總結

1.眾值適合所有變數層次,中位數適用於定序和定距變數,均值適合定距變數。

但是有時求平均等級,或者賦予類別數字也可以求出特殊均值,因為我們要盡量使用均值。

2.均值靈敏度大於中位數大於眾值。

3.嚴重偏態的資料不適合均值,只有單峰和基本對稱的圖形更有意義。多峰圖形不適用這些集中趨勢。

離散趨勢

離散趨勢為資料的分散特徵。

異眾比率

資料中非眾值所佔的比率。

from scipy import stats

variation_ratio =

1-mode()[

1][0

]/len(

)

極差

極差是定序以上變數分散程度的度量,表現為資料最大值與最小值之差。

import numpy as np

r = np.

max(

)-np.

min(

)

四分互差

四分互差是下四分位數與上四分位數之差。優點是克服極值影響。

from scipy import stats as sts

q = sts.quantile(

,p=0.75

)-sts.quantile(

,p=0.25

)

方差和標準差

方差為觀察值與其均值之差的平方和除以觀察總數n,標準差為其平方根。

import numpy as np

#標準差

std = np.std(

)#方差

var = np.var(

)

離散係數

為一組資料的標準差與平均數之比。

import numpy as np

v = np.std(

)/np.mean(

)

要點總結

離散趨勢是集中趨勢的補充。

異眾比率是眾值的補充。

極差和四分互差是中位數的補充。

方差和標準差是均值的補充。

分布本質是取值的頻次。關於分布圖和表會在之後的資料視覺化部分說明。

分布的選項要完備、要互斥。

定性資料的描述性分析

import pandas as pd import numpy as np import matplotlib.pyplot as plt train pd.read csv f o2o my data ccf online stage1 train.csv train.head 5 顯示前5行資...

描述性統計分析

描述性統計分析對調查總體所有變數的有關資料進行統計性描述,主要包括資料的頻數分析 集中趨勢分析 離散程度分析 分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一 分類變數的常用描述指標 頻數 在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變數的頻數...

描述性統計分析

import numpy as np import pandas as pd from scipy import stats import os os.chdir c data 第五章 insurance pd.read csv insurance2.csv encoding utf 8 dtype...