統計分析是對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面分析。
集中趨勢:指一組資料向某一中心靠攏的傾向,核心在於尋找資料的代表值或中心值-統計平均數(算數平均數和位置平均數)
算術平均數:簡單算術平均數和權重算術平均數
位置平均數:中位數和眾數
離中趨勢:
極差和分位差
標準差和方差
隨機生成整數和總和為1的百分佔比
df = pd.dataframe()算術平均數df['
f'] = df['
f']/df['
f'].sum()
mean = df['位置平均數value
'].mean()
mean_f = (df['
value
'] * df['
f']).sum()/df['f'
].sum()
print('
簡單算術平均數:%.2f
'%mean)
print('
權重算術平均數:%2.f
'%mean_f)
#簡單算術平均數:48.34
#權重算術平均數:51
m = df['集中趨勢密度圖value
'].mode().tolist() #
seris資料型別可通過tolist()或to_list()轉化為列表
med = df['
value
'].median()
print('
眾數為:
',m)
print('
中位數為:
',med)
#眾數為: [85]
#中位數為: 48.0
df['value
'].plot(kind = '
kde'
)plt.axvline(mean,linestyle='
--',color = 'r'
)plt.text(mean+5,0.002,'
簡單算術平均數
',color = 'r'
)plt.axvline(mean_f,linestyle='
--',color = 'y'
)plt.text(mean_f+5,0.004,'
加權算術平均數
',color = 'y'
)plt.axvline(med,linestyle='
--',color = 'g'
)plt.text(med - 30,0.006,'
中位數',color = '
隨機生成dataframe,表示對應日期的銷量
df = pd.dataframe(,index = pd.date_range('極差和分位差2019/6/1
','2019/6/30
'))
a_jc = df['箱型圖展示離散關係a_sale
'].max() - df['
a_sale
'].min()
b_jc = df['
b_sale
'].max() - df['
b_sale
'].min()
print('
產品a銷售額極差為%.2f,產品b銷售額極差為%.2f
'%(a_jc,b_jc))
a_des = df['
a_sale
'].describe()
b_des = df['
b_sale
'].describe()
a_iqr = a_des['
75%'] - a_des['
25%'
]b_iqr = b_des['
75%'] - b_des['
25%'
]print('
產品a銷售額分位差為%.2f,產品b銷售額分位差為%.2f
'%(a_iqr,b_iqr))
#產品a銷售額極差為968.05,產品b銷售額極差為946.94
#產品a銷售額分位差為550.63,產品b銷售額分位差為479.76
假設有n個樣本,x1、x2...xn,算術平均數為x
方差:( (x1-x)^2 + (x2-x)^2 + ...+ (xn-x)^2 )/n
標準差:方差的平方根
a_std = df['密度圖展示中位數、方差a_sale
'].std()
a_var = df['
a_sale
'].var()
b_std = df['
b_sale
'].std()
b_var = df['
b_sale
'].var()
print('
產品a銷售額標準差為%.2f,方差為%.2f
'%(a_std,a_var))
print('
產品b銷售額標準差為%.2f,方差為%.2f
'%(b_std,b_var))
#產品a銷售額標準差為304.25,方差為92565.69
#產品b銷售額標準差為297.36,方差為88424.61
資料的統計分析
資料預處理之後,我們要做一些統計分析,來觀察我們的資料,這其中包括 描述性分析 統計推斷。描述性分析 主要是統計指標 圖表。1 集中趨勢分析 除了分位數,我們還可以結合 中位數 眾數 平均數三者的關係。具體地 眾數在中位數左側,平均數在中位數右側,則此時資料呈正偏態分布,又叫右偏,存在極大異常值。是...
多元統計分析 聯合分析
通過假定的產品具有某些特徵,對產品進行模擬,然後讓消費者根據自己的喜好來對虛擬產品進行評價,在利用統計方法將這些特徵的重要性與效用分離,從而得出對每一特徵以及特徵水平的重要程度做出量化評價。主要解決的問題 顯示屬性及其不同水平的相對重要性 顯示屬性不同水平間的最優組合 進行市場細分 模擬占有率 特徵...
資料統計分析方法
資料統計分析方法 描述統計 假設檢驗 相關分析 方差分析 回歸分析 聚類分析 主成分與因子分析 時間序列分析 決策樹。回歸分析 研究自變數與因變數之間的關係 可以用來 因變數的值 線性回歸使用最佳的擬合直線 也就是回歸線 在因變數 y 和乙個或多個自變數 x 之間建立一種關係。多元線性回歸可表示為y...