在資料分析的時候,一般首先要對資料進行描述性統計分析(descriptive analysis),以發現其內在的規律,再選擇進一步分析的方法。描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分布、以及一些基本的統計圖形。
(1)資料的頻數分析:在資料的預處理部分,我們曾經提到利用頻數分析和交叉頻數分析來檢驗異常值。此外,頻數分析也可以發現一些統計規律。比如說,收入低的被調查者使用者滿意度比收入高的被調查者高,或者女性的使用者滿意度比男性低等。不過這些規律只是表面的特徵,在後面的分析中還要經過檢驗。
(2)資料的集中趨勢分析:資料的集中趨勢分析是用來反映資料的一般水平,常用的指標有平均值、中位數和眾數等。各指標的具體意義如下:
平均值:是衡量資料的中心位置的重要指標,反映了一些資料必然性的特點,包括算術平均值、加權算術平均值、調和平均值和幾何平均值。
中位數:是另外一種反映資料的中心位置的指標,其確定方法是將所有資料以由小到大的順序排列,位於**的資料值就是中位數。
眾數:是指在資料中發生頻率最高的資料值。
如果各個資料之間的差異程度較小,用平均值就有較好的代表性;而如果資料之間的差異程度較大,特別是有個別的極端值的情況,用中位數或眾數有較好的代表性。
(3)資料的離散程度分析:資料的離散程度分析主要是用來反映資料之間的差異程度,常用的指標有方差和標準差。方差是標準差的平方,根據不同的資料型別有不同的計算方法。
(4)資料的分布:在統計分析中,通常要假設樣本的分布屬於正態分佈,因此需要用偏度和峰度兩個指標來檢查樣本是否符合正態分佈。偏度衡量的是樣本分佈的偏斜方向和程度;而峰度衡量的是樣本分佈曲線的尖峰程度。一般情況下,如果樣本的偏度接近於0,而峰度接近於3,就可以判斷總體的分布接近於正態分佈。
(5)繪製統計圖:用圖形的形式來表達資料,比用文字表達更清晰、更簡明。在spss軟體裡,可以很容易的繪製各個變數的統計圖形,包括條形圖、餅圖和折線圖等。
示例 sim手機描述性統計分析
為簡化起見,我們只分析sim手機使用者滿意調查中的兩個變數:「總體感知質量」和「總體滿意度」變數。
(1)資料的頻數分析
用spss軟體的頻數分析可以很容易地畫出兩個變數的頻數圖:
兩個變數的頻數圖表明:大部分被調查者對sim手機的質量評價較高,總體感覺比較滿意,打分在8-10分之間。
(2)資料的集中趨勢分析
利用spss的描述性統計分析,計算sim手機「總體感知質量」和「總體滿意度」的平均值、中位數和眾數:
總體感知質量
總體滿意度
n 200
200
mean
7.11
7.43
median
8 8
mode
8 8
共有200個(n)被調查者參與了sim手機調查;總體感知質量均值(mean)7.11分、中位數(median)8分、眾數(mode)8分;總體滿意度均值7.43分、中位數8分、眾數8分,與前面的頻數分析結果一致。
(3)資料的離散程度和分布分析:
同樣利用spss軟體的描述性統計分析,可以得出sim手機的離散程度和分布指標:
總體感知質量
總體滿意度n
200
200
std. deviation
2.36
2.29
variance
5.56
5.25
skewness
-0.961
-0.988
kurtosis
0.358
0.437
「總體感知質量」變數的標準差(std. deviation) 2.36、方差(variance) 5.56;「總體滿意度」標準差2.29、方差5.25,說明不同樣本對兩個變數打分的差異程度不大,或者說不同樣本對sim手機評價的差異不大。「總體感知質量」變數的偏度(skewness)-0.961、峰度(kurtosis)0.358;「總體滿意度」變數偏度-0.988、峰度0.437,說明資料不符合正態分佈
描述性統計分析
描述性統計分析對調查總體所有變數的有關資料進行統計性描述,主要包括資料的頻數分析 集中趨勢分析 離散程度分析 分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一 分類變數的常用描述指標 頻數 在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變數的頻數...
描述性統計分析
import numpy as np import pandas as pd from scipy import stats import os os.chdir c data 第五章 insurance pd.read csv insurance2.csv encoding utf 8 dtype...
3 描述性統計分析
描述定量資料的數值法 中心趨勢的度量 變異性的度量 相對位置的度量 檢測異常值的方法 reference 對給定的類,類 或組 頻數是指落入這個類中的觀測值的個數。對給定的類,類 或組 相對頻率是指落入這個類中的觀測值個數相對於觀測值總數的比例。定性資料的圖形描述常用條形圖,餅圖和帕雷託圖。條形圖 ...