二、資料質量影響因素:
三、資料質量問題型別
前言
影響資料質量的因素是什麼,資料質量問題型別有哪些,如何設計資料質量監控流程
目標解決常見資料質量監控需求
一、資料質量相關概念
1、什麼是資料質量:
(1)資料質量顧名思義就是資料的質量
(2)資料質量是資料分析結論有效性和準確性的基礎,也是最重要的前提和保障
(3)資料質量是資料分析應用的基礎,為了獲得可靠的資料,企業必須密切關注資料質量,資料質量將是直接影響系統應用成功的關鍵
2、什麼是資料質量管理
(1)資料質量管理,是指對資料從計畫、獲取、儲存、共享、維護、應用、消亡生命週期的每個階段裡可能引發的各類資料質量問題,進行識別、度量、監控、預警等一系列管理活動
(2)資料質量管理,不僅包含了對資料質量的改善,同時還包含了對組織的改善。針對資料的改善和管理,主要包括資料分析、資料評估、資料清洗、資料監控、錯誤預警等內容。針對組織的改善和管理,主要包括確立組織資料質量改進目標、評估組織流程、指定組織流程改善計畫、指定組織監督審核機制、實施改進、評估改善效果等多個環節。
3、為什麼進行資料質量管理
(1)企業資料質量與業務績效之間存在著直接聯絡,高質量的資料可以是公司保持競爭力
(2)大資料時代,如果沒有良好的資料質量,大資料將會對決策產生誤導,甚至產生不可估量的結果
(3)目前,分析系統中的資料流轉和處理環節越來越多,資料管理越來越複雜,資料質量出錯的環節也就越顯增多
(4)為保證資料更好的為公司及企業的戰略提供正確、有力的支撐,必須就要保證資料質量的準確,進而必須要進行嚴格的資料質量監控,以保證資料的可靠性、高質量
二、資料質量影響因素:
1、需求過程引發
(1)需求過程引發的問題主要指需求設計、開發、測試、上線等過程中引發的資料質量問題
(2)此類問題的原因主要是因為續期過程中的管理機制和流程不健全導致
2、資料來源引發
(1)資料來源引發的問題是指由於上游資料來源不完善或不規範,導致下游系統受到影響,出現資料質量問題
(2)資料來源引發的資料質量問題是分析系統資料質量問題的主要**,主要體現在如下幾個方面:
3、統計口徑引發
(1)統計口徑引發的問題主要值kpi、報表等指標口徑中存在的資料質量問題,包括指標準確性、一致性及完整性問題等。
(2)此類問題產生的原因主要有以下情況:
4、系統自身
(1) 系統自身的問題主要是指系統在開發建設、日常運營和維護過程中引發的資料質量問題,比如資料模型質量問題、系統公升級資料資訊丟失問題、etl資料清洗不夠徹底帶來的問題以及資料倉儲流程排程等問題,原因主要有:
三、資料質量問題型別
1.錯誤值:
由於字段型別與實際存放資料差異,或錄入資訊錯誤而導致的資料錯誤
2.重複值:
資料記錄中存在完全一樣的重覆記錄,或從業務上理解不可能存在的關鍵資訊出現重覆記錄
3.資料不一致:
資料的記錄是否符合規範,是否與前後及其他資料集合保持統一。
資料的一致性主要包括資料記錄的規範和資料邏輯的一致性
4.資料完整性:
資料的記錄和資訊是否完整,是否存在缺失的情況
5.缺失值:
正常的資料資訊記錄中,存在資訊缺失的情況
資料缺失主要記錄的缺失和記錄彙總某個字段資訊的缺失,兩者都會造成統計結果的不準確,完整性是資料質量最基礎的保障
6.異常值
資料記錄**現明顯的資料偏差或者資料錯誤的記錄
資料質量監控
資料質量監控 原創 木東居士 木東居士 4天前 0x00 概述 隨著大資料時代的帶來,資料的應用也日趨繁茂,越來越多的應用和服務都基於資料而建立,資料的重要性不言而喻。而且,資料質量是資料分析和資料探勘結論有效性和準確性的基礎,也是這一切的資料驅動決策的前提!如何保障資料質量,確保資料可用性是每一位...
漫談資料質量監控
往往那些不起眼的功能,最能毀掉你的工作成果。本篇分享一些和資料質量監控相關的內容。資料質量監控是乙個在快速發展的業務中最容易被犧牲和忽略的功能,但是它確實至關重要的。假設你做了100個業務,一旦有其中乙個業務在某個時間段出現了資料異常,這個異常還是由業務方發現的而不是你,根據我的經驗是,它帶來的負面...
資料倉儲 資料質量監控
為什麼要做資料質量管理?提前發現問題,然後去解決,讓資料更好的服務於業務。什麼時候開始做呢?搭建數倉過程中,就要開始做 資料質量管理。要先行 不能後做。資料質量是資料驅動決策的前提 資料質量需要關注的四個點 即完整性 準確性 一致性和及時性 完整性是指資料的記錄和資訊是否完整。一般會在資料接入的時候...