(1)準備。包括需求分析、資訊環境分析、任務定義、方法定義、基本配置,以及基於以上工作獲得資料清洗方案等。通過需求分析明確資訊系統的資料清洗需求,通過資訊環境分析明確資料所處的資訊環境特點,任務定義要明確具體的資料清洗任務目標,方法定義確定合適的資料清洗方法,基本配置完成資料介面等的配置,要形成完整的資料清洗方案,並整理歸檔。
(2)檢測。包括檢測必需的資料預處理,並進行相似重覆記錄、不完整記錄、邏輯錯誤、異常資料等資料質量問題的檢測,對檢測結果進行統計,以獲得全面的資料質量資訊,並將相關資訊整理歸檔。
(3)定位。包括資料質量問題定位、資料追蹤分析,並根據檢測結果對資料質量進行評估,分析問題資料及修正的業務影響,分析產生資料質量問題的根本原因;進而確定資料質量問題性質及位置,給出資料修正方案,並將相關資訊歸檔。根據定位分析情況,可能需要返回「檢測」。
(4)修正。在定位分析的基礎上,對檢測出的例項層資料質量問題進行修正,具體包括問題資料標記、不可用資料刪除、重覆記錄合併、缺失資料估計與填充等,並對資料修正過程進行資料世系管理。
(5)驗證。驗證修正後的資料與任務定義的符合性(用到部分檢測操作),如果結果與任務目標不符合,則做進一步定位分析與修正,甚至返回「準備」中調整相應準備工作。
圖1中的一般性系統框架pdlmv根據使用者要求,允許從不同的階段開始,在不同的階段停止,以完成不同的資料清洗任務,即pdlmv是可定製的,並且各功能可單獨完成。因此,pdlmv是乙個柔性的、可擴充套件的、互動性好的、松耦合的資料清洗框架。同時,由pdlmv完成的資料處理過程,均可視為完整資料清洗過程。
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...
excel資料清洗 資料清洗excel
資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...
資料清洗技術 Excel資料清洗
1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...