資料探索之資料質量分析

2021-09-07 17:39:54 字數 1232 閱讀 5575

資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般指的是不符合要求,以及不能直接進行相應分析的資料。資料的質量分析側重於髒資料的發現,而資料清洗則是對這些髒資料的修正或者丟棄。一般情況下,資料的質量分析與資料清洗是相伴而行的,在分析出髒資料的時候伴隨著資料的清洗。

常見的髒資料報括如下:

缺失值產生的一般由如下原因造成:

(1) 有些資訊無法獲取;

(2) 有些資訊出現遺漏;

(3) 屬性值不存在,有些情況下,缺失值並不意味著資料有錯誤。對一些物件來說某些屬性值是不存在的,比如未結婚的配偶姓名。

缺失值的影響:

(1) 資料探勘建模將丟失大量有用資料;

(2) 資料探勘模型所表現出來的不確定性更加顯著,模型中蘊含的規律更難把我;

(3) 包含空值的資料會使得建模過程陷入混亂,導致不可靠的輸出。

如何發現缺失值

那如何發現缺失值呢?pandas可以幫助我們輕鬆的完成任務。pandas使用浮點值nan(not a number)表示浮點和非浮點陣列中的缺失值,如下所示:

另外,python內建的none值也會被當做na處理:

異常值是指資料是否有錄入錯誤以及含有不合理的資料,這些是通常是樣本中的個別值,其數值明顯偏離其餘的觀測值,異常值也稱之為離群點,異常值的分析也稱為離群點分析。

常用的異常值分析方法如下:

(1) 簡單統計量分析

對資料進行描述下統計,進而檢視哪些資料是不合理的。最常用的統計量是最大值和最小值,用來判斷這個變數的取值是否超出了合理的範圍。例如客戶年齡最大值為200歲,則改資料存在異常。

pandas擁有一組常用的數學和統計方法可以實現簡單的計量分析。

(2) 3σ原則

(3) 箱型圖分析

資料不一致是指資料的矛盾性、不相容性。直接對不一致的資料進行挖掘,可能會產生與實際相悖的挖掘結果。

不一致的資料產生主要發生在資料整合過程中,這可能是由於被挖掘的資料是來自不同的資料來源、對於重複性存放的資料未能進行一致性更新造成。例如,兩張表中都儲存了使用者的**號碼,但在使用者的號碼發生改變時只更新了一張表中的資料,那麼兩張表中就有了不一致的資料。

4.重複資料以及含有特殊符號的資料(如#、¥、$、*等)的資料

資料探索 一 之資料質量分析

資料質量分析的主要任務是檢查原始資料中是否存在髒資料。髒資料一般是指不符合要求以及不能直接就行應用分析的資料。髒資料報括 缺失值 異常值 不一致的值 重複資料以及含有特殊符號 的資料。缺失值是指某個記錄的缺失或者記錄中的某個字段資訊的缺失,如某小區居住人員資訊統計資料中的某些居民資料的缺失或者某位居...

資料質量分析

本文讀取了csv檔案,完成了下列要求 import pandas as pd from matplotlib import pyplot as plt import matplotlib as mpl 讀取檔案資料 csv file r c users sun tianwen desktop cat...

資料探索簡介 質量分析 特徵分析

此處參考 python資料分析和挖掘實戰 這本書 資料質量分析 主要是對異常值的分析 1 3 原則 如果資料符合正態分佈,那麼資料異常定義在一組測定值與平均值的偏差超過3倍標準差的值。在正態分佈的假設下,距離平均值3 之外的值出現的概率為p x 3 0.003,屬於極個別的小概率事件。但面對不服從正...