資料清洗 異常點的理解與處理方法(1)

2022-08-19 19:09:07 字數 1868 閱讀 6018

異常點、高槓桿點、強影響點

異常點:殘差很大的點;

高槓桿點:遠離樣本空間中心的點;

強影響點:改變擬合回歸方程特徵的點。

注意:

a點:非異常點、高槓桿點、非強影響點

a點在x空間中距離樣本的中心較遠,a是個高槓桿點;

a點的位置在通過其他點的直線附近,殘差很小,對擬合回歸方程沒有很大的影響,a點不是異常點也不是強影響點。

b點:異常點、非高槓桿點、強影響點

b點在x空間中距離樣本的中心較近,b不是高槓桿點;

b點的殘差很大,是異常點也是強影響點;

注意:b點的存在沒有改變擬合直線的斜率,但是改變了擬合直線的截距。

c點:異常點、高槓桿點、強影響點

c點的殘差很大,所以點是乙個異常點;

c點在方向上遠離其它的點的中心,所以點是乙個高槓桿點;

c點的引入實質性的改變擬合回歸方程的特徵,所以它是乙個強影響點。

異常值處理:

簡單的統計量分析

對變數做乙個描述性統計,進而檢視哪些資料是不合理的,最常用的統計量是最大值和最小值,用來判斷這個變數的取值是否超出了合理的範圍。如:客戶年齡的最大值為199歲,則該變數存在異常。

3原則 若資料服從正態分佈,在3

原則下,異常值被定義:一組測定值中與平均值的偏差超過三倍標準差的值。在正態分佈的假設下,距離平均值3

之外的值出現的概率為

,屬於極個別小概率事件。

箱型圖分析

異常值定義:小於

或大於的值。

:下四分位數

:上四分位數

:四分位數間距,上下四分位數之差,其間包含全部觀測值的一半

異常檢測的混合模型方法

步驟如下:

1:    初始化:在時刻t=0,令gt包含所有物件,而bt為空;

令f(gt,bt)為好壞觀測點劃分的評價函式。

2:    for 屬於gt的每個點x do

3:    將x從gt移動到bt,產生新的資料集合gt+1和bt+1。

4:    計算d的新的評價函式的值。

5:    計算差值:

= f(gt+1,bt+1)- f(gt,bt)

6:    if

,其中c是某個閾值 then

7:    將觀測x分類為異常。

8:    end if

9:end for

g可以理解為好的觀測的集合,b理解為懷的觀測的集合。

評價函式可以有很多種:如馬氏距離、整個資料集的似然和對數似然等等

以馬氏距離劃分為例:

如果一種劃分方式具有以下性質,我們認為這是合理的:

python資料清洗(缺失值與異常值處理)

本文寫入的是python資料庫的taob表 source 本地檔案 其中總資料為9616行,列分別為title,link,price,comment檢視資料概括 coding utf 8 author m10 import numpy as np import pandas as pd import...

資料清洗中異常值如何處理(下)

第一我們給大家介紹的是基於模型檢測,具體操作就是先建立乙個資料模型,異常是那些同模型不能完美擬合的物件 如果模型是簇的集合,則異常是不顯著屬於任何簇的物件 在使用回歸模型時,異常是相對遠離 值的物件。而這個方法的優點就是有堅實的統計學理論基礎,當存在充分的資料和所用的檢驗型別的知識時,這些檢驗可能非...

關於資料清洗的步驟及方法的理解

資料清洗,是整個資料分析過程中不可缺少的乙個環節,其結果質量直接關係到模型效果和最終結論。在實際操作中,資料清洗通常會佔據分析過程的50 80 的時間。國外有些學術機構會專門研究如何做資料清洗,相關的書籍也不少。照例,先上圖 預處理階段主要做兩件事情 一是將資料匯入處理工具。通常來說,建議使用資料庫...