描述統計學 二 彙總兩個變數資料間關係

2021-09-24 04:57:46 字數 2267 閱讀 9002

一  用**方式彙總兩個變數的資料

1  交叉分組表

常用於乙個變數為分型別變數,乙個變數為數量型變數

下面是由洛杉磯300家飯店組成的乙個樣本,其質量等級與參加資料的應用。

質量等級是乙個分類變數,等級類別:好,很好,優秀

餐價是乙個數量變數,變化的範圍:10~49,被分為四個組:10~19, 20~29, 30~39, 40~49

繪製的交叉分組表如下:

二   圖形顯示方式彙總兩個變數的資料

1  復合條形圖與結構條形圖

使用復合條形圖比較不同質量評級的飯店參加的不同,視覺化圖如下:

下面是**:

import numpy as np

import matplotlib.pyplot as plt

# 設定中文為仿宋,避免中文亂碼

plt.rcparams['font.sans-serif'] = ['adobe fangsong std']

plt.rcparams['axes.unicode_minus'] = false

def work4():

n = 4 # 頻數分布中的組數

width = 0.27 # bar width

g_arr = [53.8, 33.9, 2.6, 0.0] # 評級為好的餐廳,餐價的百分頻數分布

vg_arr = [43.6, 54.2, 60.5, 21.4] # 評級為很好的餐廳,餐價的百分頻數分布

yx_arr = [2.3, 11.9, 36.8, 78.6] # 評級為優秀的餐廳,餐價的百分頻數分布

fig, ax = plt.subplots()

ind = np.arange(n)

good = ax.bar(ind, g_arr, width, color='#deb887')

verygood = ax.bar(ind+width, vg_arr, width, color='#5f9ea0')

yx = ax.bar(ind+width+width, yx_arr, width, color='#a52a2a')

ax.set_xticks(ind+width)

ax.set_xticklabels(['10~19', '20~29', '30~39', '40~49'])

ax.legend((good[0], verygood[0], yx[0]), ('好', '很好', '優秀'))

def autolabel(rects):

for rect in rects:

height = rect.get_height()

hcap='$'+str(height)

ax.text(rect.get_x()+rect.get_width()/2.0, height, hcap,

ha='center', va='bottom', rotation='vertical')

autolabel(good)

autolabel(verygood)

plt.show()

return

使用結構條形圖比較不同質量評級的飯店參加的不同,視覺化圖如下:

這裡使用了pandas

fv1 = [53.8, 43.6, 2.3]     # 10~19餐價對應的不同評級百分頻數分布

fv2 = [33.9, 54.2, 11.9]

fv3 = [2.6, 60.5, 36.8]

fv4 = [0.0, 21.4, 78.6]

data_arr = np.array([fv1, fv2, fv3, fv4])

df = pd.dataframe(data_arr, index=['10~19', '20~29', '30~39', '40~49'],

columns=pd.index(['好', '很好', '非常好'], name='分類'))

df.plot.bar(stacked=true, title='餐價的評級分布')

plt.show()

002 描述統計學基礎

這一節課很簡單,就是我們在中學中學習的均值,中位數,眾數,這些概念主要是在上一節課中學到的數值資料這一分類中進行的。下面把這些概念讓我們再回顧一遍吧 分析數值資料 數值資料的四個方面 分析數值資料有四個主要方面 集中趨勢測量 集中趨勢測量的方式有三種 center 集中趨勢測量 均值 均值在數學中通...

教你如何區分描述統計學與推斷統計學

統計學被廣泛的應用於各個領域之上,從物理和社會科學,再到人文科學,甚至被用在工商業及zf的情報決策當中。統計學又可分為描述統計學和推斷統計學,那麼要怎樣來區分她們呢?我們先來了解描述統計學和推斷統計學的概念 因此我們可以得出兩者的共同點 兩者都以概率論為理論基礎,都是數理統計學,都是應用數學的乙個分...

pandas彙總和計算描述統計

pandas 物件擁有一組常用的數學和統計方法。他們大部分都屬於簡約和匯 計,用於從series中提取單個值 如sum或mean 或從dataframe的行或列中提取乙個series。跟對應的numpy陣列方法對比,他們都是基於沒有缺失資料的假設而構建的。看例子 呼叫dataframe的sum方法將...