一、資料摸底,資料調研
對於業務庫中的資料要弄清表裡欄位的型別以及comment釋義,以及字段出現null或者comment釋義之外的碼值的原因,與開發和業務溝通判斷是否需要補充還是過濾
二、模型的選擇
現在我自己常用的是拉鍊和快照,首先這是根據業務以及資料規模的大小確定的,不管是那種模型,我們都應該支援回溯歷史,也就是可重複執行。
一、比較行數是否一致
一般我們會比較etl操作之後行數是否一致的情況,如果出現不一致要進行明細的比較,看缺失的資料的原因
select
count(1
)from
table a
二、判斷是否主鍵重複
主鍵重複是很常見的資料質量問題
select
count(1
),count
(distinct id)
from
table a
三、判斷某個欄位的條數是否一致
這種情況一般是判斷一些權重比較高的字段的條數經過etl後是否一致
select ***,
count(1
)from
table
group
by1
四、判斷組合欄位的條數是否一致
同上,只是判斷多個常用的維度組合
select ***,***,
count(1
)from
table
groupby1
,2
常用的目前就更新這些,後續會繼續更新 資料質量保證和資料質量檢測
資料質量保證和資料質量檢測 資料質量保證 無論是檢測原始庫或者是資料倉儲,都是要有乙個有質量保證的資料庫。以檢測資料倉儲的質量為例 原始資料在抽取進入資料倉儲後,通過檢測資料倉儲質量問題來修正原始庫,從新抽取進入資料倉儲。檢測資料倉儲的資料質量 第一層 保證資料的正確性,全面性,唯一性 第二層 進行...
資料質量保證若干步驟
1 管理層面 資料質量標準 完整性 唯一性 有效性 一致性 正確性 資料質量針對具體的資料內容,進行資料內容進行系統檢查 2 業務層面 資料質量關鍵物件 ctq 業務上最重要的部分對應的資料 對已發現的問題進行訪談調查,資料剖析 資料概要分析,對資料來源表中值進行系統化的預先分析,可以幫助發現業務的...
資料倉儲 資料質量監控
為什麼要做資料質量管理?提前發現問題,然後去解決,讓資料更好的服務於業務。什麼時候開始做呢?搭建數倉過程中,就要開始做 資料質量管理。要先行 不能後做。資料質量是資料驅動決策的前提 資料質量需要關注的四個點 即完整性 準確性 一致性和及時性 完整性是指資料的記錄和資訊是否完整。一般會在資料接入的時候...