異常值判斷與識別檢驗處理

2021-09-13 14:12:25 字數 1195 閱讀 3059

異常值是指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。

在處理資料時,應剔除高度異常的異常值。異常值是否剔除,視具體情況而定。在統計檢驗時,指定為檢出異常值的顯著性水平α=0.05,稱為檢出水平;指定為檢出高度異常的異常值的顯著性水平α=0.01,稱為捨棄水平,又稱剔除水平。

判斷異常值的規則:

(1)標準差已知——奈爾(nair)檢驗法;

(2)標準差未知——格拉布斯(grubbs)檢驗法和狄克遜(dixon)檢驗法。

1.格拉布斯(grubbs)檢驗法

(1)計算統計量

μ=(x1+x2+…+xn)/n

s=(∑(xi-μ)/(n-1))½(i=1,2…n)

gn=(x(n)-μ)/s

式中μ——樣本平均值;

s——樣本標準差;

gn——格拉布斯檢驗統計量。

(2)確定檢出水平α,查表(見gb4883)得出對應n,α的格拉布斯檢驗臨界值g1-α(n)。

(3)當gn>g1-α(n),則判斷xn為異常值,否則無異常值。

(4)給出剔除水平α』的g1-α』(n),噹噹gn>g1-α』(n)時,xn為高度異常值,應剔除。

2.正態分佈判斷

根據正態分佈的定義可知,距離平均值3δ之外的概率為 p(|x-μ|>3δ) <= 0.003 ,這屬於極小概率事件,在預設情況下我們可以認定,距離超過平均值3δ的樣本是不存在的。 因此,當樣本距離平均值大於3δ,則認定該樣本為異常值。

3. 箱線圖判斷異常值

超出箱線圖上下四分位數的數值點視為異常值。

4. 回歸線附近判斷

資料整體圍繞在回歸線周圍,那偏離回歸線的可能較大概率是異常值。

5.庫克距離判斷異常值

通過庫克距離得出資料記錄中的那些數值是異常值。

異常值檢查與處理

異常值,即在資料集中存在不合理的值,又稱離群點,如下所示 對屬性值進行乙個描述性的統計,從而檢視哪些值是不合理的。比如 對待乙個人的身高,不可能說有人的身高出現3m等以上的 如果是能使用影象直接顯示資料的話,可以直觀的直接直觀的從中得出異常值 當資料服從正態分佈 根據正態分佈的定義可知,距離平均值3...

異常值處理

簡單來說,即在資料集中存在不合理的值,又稱離群點。我們舉個例子,做客戶分析,發現客戶的年平均收入是80萬美元。但是,有兩個客戶的年收入是4美元和420萬美元。這兩個客戶的年收入明顯不同於其他人,那這兩個觀察結果將被視為異常值。每當我們遇到異常值時,處理這些異常值的理想方法就是找出引起這些異常值的原因...

異常值的處理

最近看到資料分析師秋招時關於異常值處理的問題,小白上網搜了以下,特在此做一下總結。何為異常值處理,小白要分異常值和處理兩步來介紹。異常值 對整體樣本資料結構表達時,通常抓住整體樣本一般性的性質,而在這些性質上與樣本整體表達不一致的點,稱其為異常點。異常值有好有壞,我們可以疾病 信用欺詐,網路攻擊等。...