異常值,即在資料集中存在不合理的值,又稱離群點。比如年齡為-1,膝上型電腦重量為1噸等,都屬於異常值的範圍。從集合角度來看,異常值即離群點,如下圖所示:
對屬性值進行乙個描述性的統計,從而檢視哪些值是不合理的。比如對年齡這個屬性進行規約:年齡的區間在[0:200],如果樣本中的年齡值不再該區間範圍內,則表示該樣本的年齡屬性屬於異常值。
當資料服從正態分佈:
根據正態分佈的定義可知,距離平均值3δ之外的概率為 p(|x-μ|>3δ) <= 0.003 ,這屬於極小概率事件,在預設情況下我們可以認定,距離超過平均值3δ的樣本是不存在的。因此,當樣本距離平均值大於3δ,則認定該樣本為異常值。
當資料不服從正態分佈:
當資料不服從正態分佈,可以通過遠離平均距離多少倍的標準差來判定,多少倍的取值需要根據經驗和實際情況來決定。
箱型圖提供了乙個識別異常值的標準,即大於或小於箱型圖設定的上下界的數值即為異常值,箱型圖如下圖所示:
首先我們定義下上四分位和下四分位。
上四分位我們設為u,表示的是所有樣本中只有1/4的數值大於u
同理,下四分位我們設為l,表示的是所有樣本中只有1/4的數值小於l
那麼,上下界又是什麼呢?
我們設上四分位與下四分位的插值為iqr,即:iqr=u-l
那麼,上界為 u+1.5iqr,下界為: l - 1.5iqr
箱型圖選取異常值比較客觀,在識別異常值方面有一定的優越性。
異常值的處理方法常用有四種:
1.刪除含有異常值的記錄
2.將異常值視為缺失值,交給缺失值處理方法來處理
3.用平均值來修正
4.不處理
需要強調的是,如何判定和處理異常值,需要結合實際。
《python資料分析與挖掘實戰》
預處理演算法 8 異常值處理
usr bin env python coding utf 8 def execute import pandas as pd import numpy as np import warnings warnings.filterwarnings ignore from sqlalchemy impo...
資料處理之異常值分析 處理
異常值的分析方法 1 簡單統計量分析 做乙個描述性統計,進而檢視哪些資料不合理。最常用的是最大值和最小值,如年齡的最大值199,則存在異常。2 3 原則 針對服從正態分佈的資料,3 箱形圖分析 r語言 首先,讀取資料集,用sum mean 函式來分別獲取缺失樣本數 缺失比例。saledata sum...
異常值處理
簡單來說,即在資料集中存在不合理的值,又稱離群點。我們舉個例子,做客戶分析,發現客戶的年平均收入是80萬美元。但是,有兩個客戶的年收入是4美元和420萬美元。這兩個客戶的年收入明顯不同於其他人,那這兩個觀察結果將被視為異常值。每當我們遇到異常值時,處理這些異常值的理想方法就是找出引起這些異常值的原因...