從集中趨勢和離中趨勢兩個方面進行分析:
1、集中趨勢度量
(1)均值
主要問題時對極端值比較敏感,因此可以使用截斷均值來度量。
算術平均數:=mean()
幾何平均數:=exp(mean(log()))
計算資料樣本的指定階中心距(r語言):moment(x,order),計算樣本x的order階的中心距。
(2)中位數
(3)眾數
眾數更適用於定性變數。眾數不具有唯一性。
2、離中趨勢度量
(1)極差
極差 = 最大值 - 最小值
極差的問題是忽略了位於最大值和最小值之間的資料是如何分布的。
(2)標準差
(3)變異係數
度量標準差相對於均值的離中趨勢,用來比較兩個或多個具有不同單位或不同波動幅度的資料集的離中趨勢。
(4)四分位數間距
上四分位數
#python
#編輯dataframe的describe()方法
import pandas as pd
data = pd.read_excel('catering_sale.xls',index_col = u'日期')
data = data[(data[u'銷量']>400) & (data[u'銷量']<5000)] #過濾異常資料
statistics = data.describe()
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #極差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #變異係數
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位數間距
statistics
輸出結果為:
兩組的資料平均值合併 2 資料分析之描述統計分析
1 學習資料分析有什麼意義?有乙個很典型的例子我跟大家分享一下。某次戰爭,某個國家針對飛回來戰機上的彈孔進行分析。有人建議,把飛機上彈孔多的地方進行加固,因為容易被擊中。而有人認為,應該加固彈孔少的地方,因為彈孔少的地方飛機都沒有飛回來。所以資料分析的意義,讓你透過現象,看到本質。2 什麼是描述統計...
資料分析之基本統計
data.score.describe data.score.size data.score.max data.score.min data.score.sum data.score.mean 平均值 data.score.var 方差 data.score.std 標準差 累計求和 data.sc...
資料分析統計
select count 0 sum oi.aunt 10 to char oi.cre date,yyyy mm dd hh24 d count to char oi.crea date,yyyy mm dd hh24 c from eall.orer ite oi where oi.cratda...