小呆學資料分析 異常值判定與處理(一)

2021-09-24 05:35:13 字數 2373 閱讀 1927

在收集資料的過程中,可能由於人為錄入錯誤等原因,會出現明顯不合法的資料,需要在進一步分析之前對這些值進行判定並且處理,才能得到合理的資料分析和挖掘的結果。

預覽對異常值採用以下方案判定:

區間判定(普通統計量)

箱型圖判定 例子

小呆被交代一項任務,統計一下這個星期各個洗髮露的銷量,小呆開啟營銷同事的記錄本shampoo_sales.csv,看到

shampoo_sales.csv

品牌,日期,銷量

沙宣,20190101,200

沙宣,20190102,185

沙宣,20190103,1000

沙宣,20190104,210

沙宣,20190105,201

沙宣,20190106,223

沙宣,20190107,195

···沙宣,20190501,2000

···

怎麼有些天銷量這麼高嗎?我記得好像這星期都是正常的銷售啊,肯定是登記的人搞錯了。小呆想著怎麼有哪些判定標準判斷呢,要麼用去年日銷量最高判定,於是寫下**

import pandas as pd

sales = pd.read_csv(

'shampoo_sales.csv'

, encoding =

'gb2312'

)sl = sales.set_index(

['品牌'

,' 日期'])

print

(sl[sl[

'銷量'

]>

500]

)

結果顯示

品牌        日期     銷量

沙宣 20190103 1000

20190501 750

看來只有這兩天可能是有點問題的。這樣判定是不是有點武斷啊,我用其他方法在試試看,於是小呆寫下**

import matplotlib.pyplot as plt

sl.plot.box(title =

'銷量'

)

結果如下:

欸,這個好像和我在《商務與經濟統計》上面學到的箱型圖不太一樣。小呆問小瓜。是的,在實際使用中的箱型圖與書中的箱型圖是不一樣的,有空你看看我寫的科普吧。

小呆看完,原來如此,在上界下界並不一定是正常值的最大值和最小值啊。怪不得上界到上四分位與下界到下四分位距離不一樣長。

不過這樣也可以判定這裡有兩個異常值嘛。

那該怎麼處理他呢?小呆問小瓜,小瓜說當他不存在,應該怎麼補就怎麼補充吧

小呆回想了昨天的工作,用平均值補充吧,於是寫下**

sl[sl[

'銷量'

]>

500]

= sl[sl[

'銷量'

]<

500]

.mean(

)

結果如下

銷量

品牌 日期

沙宣 20190101 200

20190102 185

20190103 202.33333

20190104 210

20190105 201

20190106 223

20190107 195

20190501 202.33333

嗯,搞定,小呆把結果交給老大。

小瓜講機器學習——分類演算法(一)logistic regression(邏輯回歸)演算法原理詳解

小瓜講機器學習——分類演算法(二)支援向量機(svm)演算法原理詳解

小瓜講機器學習——分類演算法(三)樸素貝葉斯法(***** bayes)待續

資料分析

小呆學資料分析——使用pandas中的merge函式進行資料集合並

小呆學資料分析——使用pandas中的concat函式進行資料集堆疊

小呆學資料分析——pandas中的層次化索引

小呆學資料分析——使用pandas的pivot進行資料重塑

小呆學資料分析——用duplicated/drop_duplicates方法進行重複項處理

小呆學資料分析——缺失值處理(一)

小呆學資料分析——異常值判定與處理(一)

小瓜講資料分析——資料清洗

資料視覺化

小瓜講資料分析——資料視覺化工程(matplotlib庫使用基礎篇)

小瓜講matplotlib高階篇——座標軸設定(座標軸居中、座標軸箭頭、刻度設定、標識設定)

小呆學資料分析 缺失值處理(一)

在收集資料的時候常常會遇到資料缺失,可能由於漏填,可能由於感測器故障,也可能就是邏輯上應該的 比如未婚女生問卷上先生一欄肯定是空出來的缺失值 不管如何缺失值需要在進一步資料分析前要進行相應的處理。預覽本節處理缺失值採用了以下幾個方案 剔除用固定值補充 用平均數補充 例子 小呆被交代一項任務,統計一下...

資料分析之異常值檢測與處理

一 什麼是異常值?在機器學習中,異常檢測和處理是乙個比較小的分支,或者說,是機器學習的乙個副產物,因為在一般的 問題中,模型通常是對整體樣本資料結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這些性質上表現完全與整體樣本不一致的點,我們就稱其為異常點,通常異常點在 問題中是...

Python資料分析基礎 異常值檢測和處理

知乎 python資料分析師 本篇繼續分享資料清洗中的另乙個常見問題 異常值檢測和處理。在機器學習中,異常檢測和處理是乙個比較小的分支,或者說,是機器學習的乙個副產物,因為在一般的 問題中,模型通常是對整體樣本資料結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這些性質上表...