import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
import matplotlib as mpl
#讀取資料
df = pd.read_csv(
'', header =
none
,sep =
'\s+'
,names=
['體溫'
,'性別'
,'心率'])
#檢視資料概覽
df.head(
)
# 檢視資料描述
df['體溫'
].describe(
)
輸出:
# 計算偏態係數
stats.skew(df[
'體溫'])
# out:-0.004367976879198404
# 偏態係數小於0且接近0,曲線呈微左偏,大致呈對稱分布
# 峰態係數
stats.kurtosis(df[
'體溫'])
# 峰態係數0.7049597854114715
# 峰態係數大於0且接近0,說明曲線微高聳
我們知道正態分佈時堆對稱的,偏度為0,峰度為0,從以上兩個係數可以判斷,體溫的分布近似正態分佈,那到底是不是滿足分布的正態性呢,需要使用真正的統計檢驗方法,而不是簡單地檢查峰度或偏度。
這裡使用 scipy.stats 提供的 shapiro 函式,對體溫分布進行 shapiro-wilk 檢驗。該函式有兩個返回值,乙個是檢驗的t統計量,另乙個是p值。我們只需要知道如何使用p值判斷資料的正態性:如果p值小於等於0.05,就拒絕正態性假設,得出資料非正態分佈的結論。
# 檢驗是否滿足正態分佈
stats.shapiro(df[
'體溫'])
# out:(0.9865769743919373, 0.2331680953502655)
# 輸出結果中第乙個為統計數,第二個為p值
# p值小於0.05,所以體溫滿足正態分佈
體溫滿足正態分佈,我們將繪製正態分佈曲線
import matplotlib.pyplot as plt
import matplotlib as mpl
#解決亂碼
from pylab import
*mpl.rcparams[
'font.sans-serif']=
['simhei'
]#繪製正態分佈圖形
t = df[
'體溫'
].sort_values(
)#計算合適的位置和比例
loc,scale = stats.norm.fit(t)
plt.plot(t, stats.norm.pdf(t,loc,scale)
,'b-'
,label =
'norm'
)plt.title(u'體溫正態分佈圖'
)plt.show(
)
輸出:
統計學之正態分佈檢驗
本次主要是對資料集資料進行正態分佈檢驗,資料集位址為 主要包括三列資料,體溫 f 性別 1 男,2 女 心率 次 分鐘 1.資料統計 usr bin env python coding utf 8 import requests import pandas as pd import numpy as...
學習筆記 統計學入門(4 7) 正態分佈
索引 四 正態分佈 1 從樣本頻數分布到概率分布 直方圖 頻率圖的性質 1 直條的面積實質上是頻率 或者百分比 即 面積 高度 頻率 組距 寬度 組距 頻率 2 所有直條面積相加等於1 樣本量越來越大時,頻率 面積 去向概率 組距越來越小時,直方圖的頂替所成點並且各個直方條的頂鏈結成一條曲線,該曲線...
征服統計學02 什麼是正態分佈?
本文簡單介紹正態分佈 正態分佈簡介 正態分佈關鍵引數 均值 標準差 正態分佈曲線如何繪製 正態分佈曲線現象解釋 reference 正態分佈 normal distribution 又名高斯分布 gaussian distribution 又因其曲線酷似鐘形,得名鐘形曲線。還是以上篇提到的測量身高為...