資料質量分析的主要任務是檢查原始資料中是否存在髒資料。髒資料一般是指不符合要求以及不能直接就行應用分析的資料。髒資料報括:缺失值、異常值、不一致的值、重複資料以及含有特殊符號(#、¥、*)的資料。
缺失值是指某個記錄的缺失或者記錄中的某個字段資訊的缺失,如某小區居住人員資訊統計資料中的某些居民資料的缺失或者某位居民資料中年齡或性別的缺失。
缺失值產生的原因主要有三點:1.有些資訊暫時獲取不到。2.有些資訊由於人為的原因遺漏或者裝置故障而丟失。3.屬性值不存在,在某些情況下,缺失值並不意味著資料有錯誤。對一些物件來說,某些屬性值是不存在的,如乙個未婚者的配偶說明,乙個兒童的固定收入。
缺失值將會是資料探勘建模所表現出的不確定性更加顯著,規律更加難以把握。
異常值分析是檢測資料是否有錄入錯誤,是否含有不合理的資料。異常值是指樣本中的個別值,其資料明顯偏離其他的觀測值。異常值也成為離群點,異常值分析也成為離群點分析。
可以先對變數做乙個描述性統計,進而檢視哪些資料是不合理的。即用描述資料統計特徵的一些指標如:平均值(mean)、標準差(std)、最小值(min)、最大值(max)、1/4、1/2、3/4分位數。最常用的統計量是最大值和最小值,用來判斷這個變數的取值是否超出了合理範圍,如客戶年齡的最大值為199歲,則判斷該變數的取值異常。
在正態分佈中σ代表標準差,μ代表均值x=μ即為影象的對稱軸
三σ原則即為
數值分布在(μ—σ,μ+σ)中的概率為0.6826
數值分布在(μ—2σ,μ+2σ)中的概率為0.9544
數值分布在(μ—3σ,μ+3σ)中的概率為0.9974
可以認為,y 的取值幾乎全部集中在(μ—3σ,μ+3σ)]區間內,超出這個範圍的可能性僅佔不到0.3%.
如果資料服從正態分佈,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過三倍標準差的值。因為距離平均值3σ之外的值出現蓋倫小於等於0.003,屬於極個別的小概率事件。
箱型圖是反應一組資料的某些特徵的圖。包括 上四分位數(
箱型圖提供了乙個識別異常值的標準:異常值被定義為小於下界)或大於(上界)的值。iqr為四分位數間距,是上四分位數和下四分位數之差,其間包含了全部觀察值的一半。
箱型圖依據實際資料繪製,對資料沒有任何限制性要求;箱型圖判斷異常值是以四分位數和四分位間距為基礎,四分位數具有一定魯棒性:即靠近下半部的百分之25資料與靠近上半部的百分之25的資料可以任意大小,對整體判斷不產生影響,即不會嚴重擾動四分位數。這是箱型圖的優越性。
圓圈為離群點;上圖是某企業銷售資料的箱型圖,其中超過上下界的七個日銷售額資料可能為異常值。
資料不一致性是指資料的矛盾性、不相容性。主要發生在資料整合過程中,可能是由於被挖掘資料來自不同的資料來源、對於重複存放的資料未能進行一致性更新造成的。例如:兩張表中都儲存了使用者的**號碼,但在使用者的**號碼發生改變時,只更新了一張表的資料。這兩張表就有了不一致的資料。
資料探索之資料質量分析
資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般指的是不符合要求,以及不能直接進行相應分析的資料。資料的質量分析側重於髒資料的發現,而資料清洗則是對這些髒資料的修正或者丟棄。一般情況下,資料的質量分析與資料清洗是相伴而行的,在分析出髒資料的時候伴隨著資料的清洗。常見的髒資料報括如下 ...
資料質量分析
本文讀取了csv檔案,完成了下列要求 import pandas as pd from matplotlib import pyplot as plt import matplotlib as mpl 讀取檔案資料 csv file r c users sun tianwen desktop cat...
資料探索簡介 質量分析 特徵分析
此處參考 python資料分析和挖掘實戰 這本書 資料質量分析 主要是對異常值的分析 1 3 原則 如果資料符合正態分佈,那麼資料異常定義在一組測定值與平均值的偏差超過3倍標準差的值。在正態分佈的假設下,距離平均值3 之外的值出現的概率為p x 3 0.003,屬於極個別的小概率事件。但面對不服從正...