為什麼要做資料質量管理?
提前發現問題,然後去解決,讓資料更好的服務於業務。
什麼時候開始做呢?
搭建數倉過程中,就要開始做 資料質量管理。要先行 不能後做。資料質量是資料驅動決策的前提
資料質量需要關注的四個點:即完整性、準確性、一致性和及時性
完整性是指資料的記錄和資訊是否完整。一般會在資料接入的時候來做資料完整性校驗
準確性是指資料中記錄的資訊和資料是否準確 一般準確性的監控多集中在對業務結果資料的監控,比如每日的活躍、收入等資料是否正常
一致性是指同一指標在不同地方的結果是否一致。這是由於計算口徑或者開發人員的不同,造成同一指標出現的不同的結果
及時性是要保障資料能夠及時產出,這樣才能體現資料的價值。可以監控結果資料是否在指定時間點前計算完成。
那具體怎麼做的?
表級別的監控:對錶的量級用同環比設定一定的閾值進行校驗
字段級別的監控:
列舉值的校驗:產品型別、狀態值 count(distinct)
範圍判斷:特別大的金額。
髒資料校驗:關聯維度表去做校驗
全鏈路的監控
監控資料倉儲
通常,資料倉儲環境中兩種受監控的操作成分是儲存於資料倉儲中的資料和資料的使用。監控資料倉儲環境中的資料是管理資料倉儲環境的基本能力。通過監控資料倉儲環境中的資料能取得一些重要資訊,包括 識別發生了什麼增長,增長發生在什麼地方,增長以什麼速率發生 識別正在使用什麼資料。估算終端使用者得到的響應時間。確...
數倉 資料倉儲的資料質量任務監控(四)
我想在本文說說資料質量,etl任務管理和監控 數倉系列 數倉 資料倉儲的思考 一 數倉 資料倉儲的建設 二 數倉 資料倉儲的元資料管理 三 分為4個性質 當然我看了不同的公司對於資料質量的性質和定義都不太一樣,大家還是要按照自己的業務來啊!1.乙個資料值與設定的值之間的誤差 是否可以接受誤差,誤差在...
資料倉儲建設持續改進資料質量
從實施中國電信6省營銷分析情況來看,資料質量改進普遍存在如何定義資料質量評價標準 如何實現資料質量管理的閉環過程 如何界定資料質量改進過程中各系統間的功能邊界三個難點問題。資料質量改進案例分析 從實施中國電信6省營銷分析情況來看,資料質量改進普遍存在如何定義資料質量評價標準 如何實現資料質量管理的閉...