小呆學資料分析異常值判定與處理（一）

在收集資料的過程中，可能由於人為錄入錯誤等原因，會出現明顯不合法的資料，需要在進一步分析之前對這些值進行判定並且處理，才能得到合理的資料分析和挖掘的結果。

預覽對異常值採用以下方案判定：

區間判定（普通統計量）

箱型圖判定例子

小呆被交代一項任務，統計一下這個星期各個洗髮露的銷量，小呆開啟營銷同事的記錄本shampoo_sales.csv，看到

shampoo_sales.csv

品牌,日期,銷量沙宣,20190101,200 沙宣,20190102,185 沙宣,20190103,1000 沙宣,20190104,210 沙宣,20190105,201 沙宣,20190106,223 沙宣,20190107,195 ···沙宣,20190501,2000

···

怎麼有些天銷量這麼高嗎？我記得好像這星期都是正常的銷售啊，肯定是登記的人搞錯了。小呆想著怎麼有哪些判定標準判斷呢，要麼用去年日銷量最高判定，於是寫下**

import pandas as pd
sales = pd.read_csv(
'shampoo_sales.csv'
, encoding =
'gb2312'
)sl = sales.set_index(
['品牌'
,' 日期'])
print
(sl[sl[
'銷量'
]>
500]
)

結果顯示

品牌日期銷量沙宣 20190103 1000 20190501 750

看來只有這兩天可能是有點問題的。這樣判定是不是有點武斷啊，我用其他方法在試試看，於是小呆寫下**

import matplotlib.pyplot as plt
sl.plot.box(title =
'銷量'
)

結果如下：

欸，這個好像和我在《商務與經濟統計》上面學到的箱型圖不太一樣。小呆問小瓜。是的，在實際使用中的箱型圖與書中的箱型圖是不一樣的，有空你看看我寫的科普吧。

小呆看完，原來如此，在上界下界並不一定是正常值的最大值和最小值啊。怪不得上界到上四分位與下界到下四分位距離不一樣長。

不過這樣也可以判定這裡有兩個異常值嘛。

那該怎麼處理他呢?小呆問小瓜，小瓜說當他不存在，應該怎麼補就怎麼補充吧

小呆回想了昨天的工作，用平均值補充吧，於是寫下**

sl[sl[
'銷量'
]>
500]
= sl[sl[
'銷量'
]<
500]
.mean(
)

結果如下

銷量品牌日期沙宣 20190101 200 20190102 185 20190103 202.33333 20190104 210 20190105 201 20190106 223 20190107 195 20190501 202.33333

嗯，搞定，小呆把結果交給老大。

小瓜講機器學習——分類演算法（一）logistic regression(邏輯回歸)演算法原理詳解

小瓜講機器學習——分類演算法（二）支援向量機（svm）演算法原理詳解

小瓜講機器學習——分類演算法（三）樸素貝葉斯法（***** bayes）待續

資料分析

小呆學資料分析——使用pandas中的merge函式進行資料集合並

小呆學資料分析——使用pandas中的concat函式進行資料集堆疊

小呆學資料分析——pandas中的層次化索引

小呆學資料分析——使用pandas的pivot進行資料重塑

小呆學資料分析——用duplicated/drop_duplicates方法進行重複項處理

小呆學資料分析——缺失值處理（一）

小呆學資料分析——異常值判定與處理（一）

小瓜講資料分析——資料清洗

資料視覺化

小瓜講資料分析——資料視覺化工程（matplotlib庫使用基礎篇）

小瓜講matplotlib高階篇——座標軸設定（座標軸居中、座標軸箭頭、刻度設定、標識設定）

小呆學資料分析缺失值處理（一）

在收集資料的時候常常會遇到資料缺失，可能由於漏填，可能由於感測器故障，也可能就是邏輯上應該的比如未婚女生問卷上先生一欄肯定是空出來的缺失值不管如何缺失值需要在進一步資料分析前要進行相應的處理。預覽本節處理缺失值採用了以下幾個方案剔除用固定值補充用平均數補充例子小呆被交代一項任務，統計一下...

資料分析之異常值檢測與處理

一什麼是異常值？在機器學習中，異常檢測和處理是乙個比較小的分支，或者說，是機器學習的乙個副產物，因為在一般的問題中，模型通常是對整體樣本資料結構的一種表達方式，這種表達方式通常抓住的是整體樣本一般性的性質，而那些在這些性質上表現完全與整體樣本不一致的點，我們就稱其為異常點，通常異常點在問題中是...

Python資料分析基礎異常值檢測和處理

知乎 python資料分析師本篇繼續分享資料清洗中的另乙個常見問題異常值檢測和處理。在機器學習中，異常檢測和處理是乙個比較小的分支，或者說，是機器學習的乙個副產物，因為在一般的問題中，模型通常是對整體樣本資料結構的一種表達方式，這種表達方式通常抓住的是整體樣本一般性的性質，而那些在這些性質上表...

小呆學資料分析 異常值判定與處理（一）

小呆學資料分析 缺失值處理（一）

資料分析之異常值檢測與處理

Python資料分析基礎 異常值檢測和處理

相關推薦

小呆學資料分析異常值判定與處理（一）

小呆學資料分析缺失值處理（一）

Python資料分析基礎異常值檢測和處理