異常點、高槓桿點、強影響點
異常點:殘差很大的點;
高槓桿點:遠離樣本空間中心的點;
強影響點:改變擬合回歸方程特徵的點。
注意:
a點:非異常點、高槓桿點、非強影響點
a點在x空間中距離樣本的中心較遠,a是個高槓桿點;
a點的位置在通過其他點的直線附近,殘差很小,對擬合回歸方程沒有很大的影響,a點不是異常點也不是強影響點。
b點:異常點、非高槓桿點、強影響點
b點在x空間中距離樣本的中心較近,b不是高槓桿點;
b點的殘差很大,是異常點也是強影響點;
注意:b點的存在沒有改變擬合直線的斜率,但是改變了擬合直線的截距。
c點:異常點、高槓桿點、強影響點
c點的殘差很大,所以點是乙個異常點;
c點在方向上遠離其它的點的中心,所以點是乙個高槓桿點;
c點的引入實質性的改變擬合回歸方程的特徵,所以它是乙個強影響點。
異常值處理:
簡單的統計量分析
對變數做乙個描述性統計,進而檢視哪些資料是不合理的,最常用的統計量是最大值和最小值,用來判斷這個變數的取值是否超出了合理的範圍。如:客戶年齡的最大值為199歲,則該變數存在異常。
3原則 若資料服從正態分佈,在3
原則下,異常值被定義:一組測定值中與平均值的偏差超過三倍標準差的值。在正態分佈的假設下,距離平均值3
之外的值出現的概率為
,屬於極個別小概率事件。
箱型圖分析
異常值定義:小於
或大於的值。
:下四分位數
:上四分位數
:四分位數間距,上下四分位數之差,其間包含全部觀測值的一半
異常檢測的混合模型方法
步驟如下:
1: 初始化:在時刻t=0,令gt包含所有物件,而bt為空;
令f(gt,bt)為好壞觀測點劃分的評價函式。
2: for 屬於gt的每個點x do
3: 將x從gt移動到bt,產生新的資料集合gt+1和bt+1。
4: 計算d的新的評價函式的值。
5: 計算差值:
= f(gt+1,bt+1)- f(gt,bt)
6: if
,其中c是某個閾值 then
7: 將觀測x分類為異常。
8: end if
9:end for
g可以理解為好的觀測的集合,b理解為懷的觀測的集合。
評價函式可以有很多種:如馬氏距離、整個資料集的似然和對數似然等等
以馬氏距離劃分為例:
如果一種劃分方式具有以下性質,我們認為這是合理的:
python資料清洗(缺失值與異常值處理)
本文寫入的是python資料庫的taob表 source 本地檔案 其中總資料為9616行,列分別為title,link,price,comment檢視資料概括 coding utf 8 author m10 import numpy as np import pandas as pd import...
資料清洗中異常值如何處理(下)
第一我們給大家介紹的是基於模型檢測,具體操作就是先建立乙個資料模型,異常是那些同模型不能完美擬合的物件 如果模型是簇的集合,則異常是不顯著屬於任何簇的物件 在使用回歸模型時,異常是相對遠離 值的物件。而這個方法的優點就是有堅實的統計學理論基礎,當存在充分的資料和所用的檢驗型別的知識時,這些檢驗可能非...
關於資料清洗的步驟及方法的理解
資料清洗,是整個資料分析過程中不可缺少的乙個環節,其結果質量直接關係到模型效果和最終結論。在實際操作中,資料清洗通常會佔據分析過程的50 80 的時間。國外有些學術機構會專門研究如何做資料清洗,相關的書籍也不少。照例,先上圖 預處理階段主要做兩件事情 一是將資料匯入處理工具。通常來說,建議使用資料庫...