一 用**方式彙總兩個變數的資料
1 交叉分組表
常用於乙個變數為分型別變數,乙個變數為數量型變數
下面是由洛杉磯300家飯店組成的乙個樣本,其質量等級與參加資料的應用。
質量等級是乙個分類變數,等級類別:好,很好,優秀
餐價是乙個數量變數,變化的範圍:10~49,被分為四個組:10~19, 20~29, 30~39, 40~49
繪製的交叉分組表如下:
二 圖形顯示方式彙總兩個變數的資料
1 復合條形圖與結構條形圖
使用復合條形圖比較不同質量評級的飯店參加的不同,視覺化圖如下:
下面是**:
import numpy as np
import matplotlib.pyplot as plt
# 設定中文為仿宋,避免中文亂碼
plt.rcparams['font.sans-serif'] = ['adobe fangsong std']
plt.rcparams['axes.unicode_minus'] = false
def work4():
n = 4 # 頻數分布中的組數
width = 0.27 # bar width
g_arr = [53.8, 33.9, 2.6, 0.0] # 評級為好的餐廳,餐價的百分頻數分布
vg_arr = [43.6, 54.2, 60.5, 21.4] # 評級為很好的餐廳,餐價的百分頻數分布
yx_arr = [2.3, 11.9, 36.8, 78.6] # 評級為優秀的餐廳,餐價的百分頻數分布
fig, ax = plt.subplots()
ind = np.arange(n)
good = ax.bar(ind, g_arr, width, color='#deb887')
verygood = ax.bar(ind+width, vg_arr, width, color='#5f9ea0')
yx = ax.bar(ind+width+width, yx_arr, width, color='#a52a2a')
ax.set_xticks(ind+width)
ax.set_xticklabels(['10~19', '20~29', '30~39', '40~49'])
ax.legend((good[0], verygood[0], yx[0]), ('好', '很好', '優秀'))
def autolabel(rects):
for rect in rects:
height = rect.get_height()
hcap='$'+str(height)
ax.text(rect.get_x()+rect.get_width()/2.0, height, hcap,
ha='center', va='bottom', rotation='vertical')
autolabel(good)
autolabel(verygood)
plt.show()
return
使用結構條形圖比較不同質量評級的飯店參加的不同,視覺化圖如下:
這裡使用了pandas
fv1 = [53.8, 43.6, 2.3] # 10~19餐價對應的不同評級百分頻數分布
fv2 = [33.9, 54.2, 11.9]
fv3 = [2.6, 60.5, 36.8]
fv4 = [0.0, 21.4, 78.6]
data_arr = np.array([fv1, fv2, fv3, fv4])
df = pd.dataframe(data_arr, index=['10~19', '20~29', '30~39', '40~49'],
columns=pd.index(['好', '很好', '非常好'], name='分類'))
df.plot.bar(stacked=true, title='餐價的評級分布')
plt.show()
002 描述統計學基礎
這一節課很簡單,就是我們在中學中學習的均值,中位數,眾數,這些概念主要是在上一節課中學到的數值資料這一分類中進行的。下面把這些概念讓我們再回顧一遍吧 分析數值資料 數值資料的四個方面 分析數值資料有四個主要方面 集中趨勢測量 集中趨勢測量的方式有三種 center 集中趨勢測量 均值 均值在數學中通...
教你如何區分描述統計學與推斷統計學
統計學被廣泛的應用於各個領域之上,從物理和社會科學,再到人文科學,甚至被用在工商業及zf的情報決策當中。統計學又可分為描述統計學和推斷統計學,那麼要怎樣來區分她們呢?我們先來了解描述統計學和推斷統計學的概念 因此我們可以得出兩者的共同點 兩者都以概率論為理論基礎,都是數理統計學,都是應用數學的乙個分...
pandas彙總和計算描述統計
pandas 物件擁有一組常用的數學和統計方法。他們大部分都屬於簡約和匯 計,用於從series中提取單個值 如sum或mean 或從dataframe的行或列中提取乙個series。跟對應的numpy陣列方法對比,他們都是基於沒有缺失資料的假設而構建的。看例子 呼叫dataframe的sum方法將...