在收集資料的過程中,可能由於人為錄入錯誤等原因,會出現明顯不合法的資料,需要在進一步分析之前對這些值進行判定並且處理,才能得到合理的資料分析和挖掘的結果。
預覽對異常值採用以下方案判定:
區間判定(普通統計量)
箱型圖判定 例子
小呆被交代一項任務,統計一下這個星期各個洗髮露的銷量,小呆開啟營銷同事的記錄本shampoo_sales.csv,看到
shampoo_sales.csv
品牌,日期,銷量
沙宣,20190101,200
沙宣,20190102,185
沙宣,20190103,1000
沙宣,20190104,210
沙宣,20190105,201
沙宣,20190106,223
沙宣,20190107,195
···沙宣,20190501,2000
···
怎麼有些天銷量這麼高嗎?我記得好像這星期都是正常的銷售啊,肯定是登記的人搞錯了。小呆想著怎麼有哪些判定標準判斷呢,要麼用去年日銷量最高判定,於是寫下**
import pandas as pd
sales = pd.read_csv(
'shampoo_sales.csv'
, encoding =
'gb2312'
)sl = sales.set_index(
['品牌'
,' 日期'])
print
(sl[sl[
'銷量'
]>
500]
)
結果顯示
品牌 日期 銷量
沙宣 20190103 1000
20190501 750
看來只有這兩天可能是有點問題的。這樣判定是不是有點武斷啊,我用其他方法在試試看,於是小呆寫下**
import matplotlib.pyplot as plt
sl.plot.box(title =
'銷量'
)
結果如下:
欸,這個好像和我在《商務與經濟統計》上面學到的箱型圖不太一樣。小呆問小瓜。是的,在實際使用中的箱型圖與書中的箱型圖是不一樣的,有空你看看我寫的科普吧。
小呆看完,原來如此,在上界下界並不一定是正常值的最大值和最小值啊。怪不得上界到上四分位與下界到下四分位距離不一樣長。
不過這樣也可以判定這裡有兩個異常值嘛。
那該怎麼處理他呢?小呆問小瓜,小瓜說當他不存在,應該怎麼補就怎麼補充吧
小呆回想了昨天的工作,用平均值補充吧,於是寫下**
sl[sl[
'銷量'
]>
500]
= sl[sl[
'銷量'
]<
500]
.mean(
)
結果如下
銷量
品牌 日期
沙宣 20190101 200
20190102 185
20190103 202.33333
20190104 210
20190105 201
20190106 223
20190107 195
20190501 202.33333
嗯,搞定,小呆把結果交給老大。
小瓜講機器學習——分類演算法(一)logistic regression(邏輯回歸)演算法原理詳解
小瓜講機器學習——分類演算法(二)支援向量機(svm)演算法原理詳解
小瓜講機器學習——分類演算法(三)樸素貝葉斯法(***** bayes)待續
資料分析
小呆學資料分析——使用pandas中的merge函式進行資料集合並
小呆學資料分析——使用pandas中的concat函式進行資料集堆疊
小呆學資料分析——pandas中的層次化索引
小呆學資料分析——使用pandas的pivot進行資料重塑
小呆學資料分析——用duplicated/drop_duplicates方法進行重複項處理
小呆學資料分析——缺失值處理(一)
小呆學資料分析——異常值判定與處理(一)
小瓜講資料分析——資料清洗
資料視覺化
小瓜講資料分析——資料視覺化工程(matplotlib庫使用基礎篇)
小瓜講matplotlib高階篇——座標軸設定(座標軸居中、座標軸箭頭、刻度設定、標識設定)
小呆學資料分析 缺失值處理(一)
在收集資料的時候常常會遇到資料缺失,可能由於漏填,可能由於感測器故障,也可能就是邏輯上應該的 比如未婚女生問卷上先生一欄肯定是空出來的缺失值 不管如何缺失值需要在進一步資料分析前要進行相應的處理。預覽本節處理缺失值採用了以下幾個方案 剔除用固定值補充 用平均數補充 例子 小呆被交代一項任務,統計一下...
資料分析之異常值檢測與處理
一 什麼是異常值?在機器學習中,異常檢測和處理是乙個比較小的分支,或者說,是機器學習的乙個副產物,因為在一般的 問題中,模型通常是對整體樣本資料結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這些性質上表現完全與整體樣本不一致的點,我們就稱其為異常點,通常異常點在 問題中是...
Python資料分析基礎 異常值檢測和處理
知乎 python資料分析師 本篇繼續分享資料清洗中的另乙個常見問題 異常值檢測和處理。在機器學習中,異常檢測和處理是乙個比較小的分支,或者說,是機器學習的乙個副產物,因為在一般的 問題中,模型通常是對整體樣本資料結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這些性質上表...