本文讀取了csv檔案,完成了下列要求
import結果pandas as pd
from matplotlib import
pyplot as plt
import
matplotlib as mpl
#讀取檔案資料
csv_file = r"
c:/users/sun tianwen/desktop/catering_sale.csv
"csv_data = pd.read_csv(csv_file, low_memory=false,encoding='
gbk'
)csv_df =pd.dataframe(csv_data)
(csv_df)
日期 銷量0 2015/3/1 51.0
1 2015/2/28 2618.2
2 2015/2/27 2608.4
3 2015/2/26 2651.9
4 2015/2/25 3442.1.. ... ...
196 2014/8/6 2915.8
197 2014/8/5 2618.1
198 2014/8/4 2993.0
199 2014/8/3 3436.4
200 2014/8/2 2261.7
#結果求最大值、最小值及平均值
print("
最小值:")
(csv_data.min())
print("
最大值:")
(csv_data.max())
print("
平均值:")
print(csv_data.mean())
最小值:日期 2014/10/1銷量 22.0dtype: object
最大值:
日期 2015/3/1銷量 9106.44
dtype: object
平均值:
銷量 2755.2147dtype: float64
#結果統計缺失變數個數
print("
缺失變數個數:")
(csv_df.isnull().sum())
#樣本個數
print("
樣本個數:")
print(csv_df["
銷量"].shape[0])
缺失變數個數:日期 0
銷量 1dtype: int64
缺失樣本個數:
201
#結果繪製箱形圖
mpl.rcparams['
font.sans-serif
'] = ['
fangsong
'] #
指定預設字型
mpl.rcparams['
axes.unicode_minus
'] =false
y=csv_df["銷量"
]plt.title(
"箱型圖
",fontsize=20) #
設定標題
plt.ylabel("
銷量") #
設定y軸標籤
plt.grid(linestyle='
--',alpha=0.5) #
設定**線型別,透明度為0.5
plt.boxplot(y) #
畫圖plt.show()
圖中單獨的點即為異常值,看圖可知有6個異常值
資料質量分析和特徵分析
1.資料質量分析包括缺失值分析,異常值分析 1.1資料質量分析之異常值分析 資料質量驗證最常用的方法是最大值和最小值,用來判斷這個變數的範圍是否超出了合理區間。如果資料服從正態分佈,在3 原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,在正態分佈的假設下距離平均值3 之外的值出現...
系統質量分析
的效能測試。從不同角度看待 的效能例如 使用者角度,直觀的反映出 的執行速度,在開發 系統時,只有自己進行測試,能夠通順的完成測試,效能不穩定,穩定 行較差,使用者測試滿意度較低,只是不足之處。開發人員角度測試 的穩定性,只有考錄周全,新增合理構造,使之完善。的高可用性 要保障萬無一失。為客戶服務,...
資料探索之資料質量分析
資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般指的是不符合要求,以及不能直接進行相應分析的資料。資料的質量分析側重於髒資料的發現,而資料清洗則是對這些髒資料的修正或者丟棄。一般情況下,資料的質量分析與資料清洗是相伴而行的,在分析出髒資料的時候伴隨著資料的清洗。常見的髒資料報括如下 ...