Python 異常值分析

2021-08-20 08:41:23 字數 889 閱讀 9174

import pandas as pd

catering_sale = 'data2.xls'

#餐飲資料

data = pd.read_excel(catering_sale, index_col = u'日期') #讀取資料,指定「日期」列為索引列

import matplotlib.pyplot as plt #匯入影象庫

plt.rcparams['font.sans-serif'] = ['simhei'] #用來正常顯示中文標籤

plt.rcparams['axes.unicode_minus'] = false

#用來正常顯示負號

plt.figure() #建立影象

p = data.boxplot() #畫箱線圖,直接使用dataframe的方法

x = p['fliers'][0].get_xdata() # 'flies'即為異常值的標籤

y = p['fliers'][0].get_ydata()

y.sort() #從小到大排序,該方法直接改變原物件

#用annotate新增注釋

#其中有些相近的點,註解會出現重疊,難以看清,需要一些技巧來控制。

#以下引數都是經過除錯的,需要具體問題具體除錯。

for i in range(len(x)):

if i>0:

plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))

else:

plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show()

python 異常值捕獲

在python中我們都知道可以用 try pass except pass來捕獲異常,比如 data try print data key except exception as e print e print data key 直接列印data key 會報keyerror這個錯誤,但是用try ...

資料處理 利用 python進行異常值分析

異常值分析是檢驗資料是否有錄入錯誤資料和不合常理的資料。不加剔除的把異常值代入資料分析過程中,會對結果產生不良影響,而對異常值的分析其原因,常常成為為發現問題的而改進決策的契機。異常值是指樣本中的個別值,其數值明顯偏離其餘的資料。異常值通常也稱為離群點,所以異常值分析也叫做離群點分析。異常值分析通常...

異常值處理

簡單來說,即在資料集中存在不合理的值,又稱離群點。我們舉個例子,做客戶分析,發現客戶的年平均收入是80萬美元。但是,有兩個客戶的年收入是4美元和420萬美元。這兩個客戶的年收入明顯不同於其他人,那這兩個觀察結果將被視為異常值。每當我們遇到異常值時,處理這些異常值的理想方法就是找出引起這些異常值的原因...