資料質量
一.資料質量檢查的四大類是什麼?為每類提供一種實現技術。
資料質量檢查是etl工作中非常重要的一步,主要關注以下四個方面。
1.正確性檢查(corret)
檢查資料值及其描述是否真實的反映了客觀事務。例如位址的描述是否完全。
2.明確性檢查(unambiguous)
檢查資料值及其描述是否只有乙個意思或者只有乙個解釋。例如地名相同的兩個縣需要加區分方法。
3.一致性檢查(consistent)
檢查資料值及其描述是否統一的採用固定的約定符號來表示。例如幣別中人民幣用'cny'。
4.完全性檢查(complete)
完全性有兩個需要檢查的地方,乙個是檢查欄位的資料值及其描述是否完全。例如檢查是否有空值。另乙個是檢查記錄的合計值是否完全,有沒有遺忘某些條件。
二.簡述應該在etl的哪個步驟來實現概況分析?
資料概況分析是對源資料內容的概況進行分析,應該在專案的開始後盡早完成,它會對設計和實現有很大的影響。在完成需求收集後就應該立即開始資料概況分析。
資料概況分析不光是對源系統的資料概況的定量描述,而且為etl系統中需要建立的錯誤事件事實表(error event table)和審計維度表(audit dimension)打下基礎,為其提供資料。
三.etl專案中的資料質量部分核心的交付物有那些?
etl專案中資料質量部分的核心的交付物主要有下面三個:
1.資料概況分析結果
資料概況分析結果是對源系統的資料狀況的分析產物,包括如源系統中有多少個表,每個表有多少字段,其中多少為空,表間的外來鍵關係是否存在等反映源系統資料質量的內容。這些內容用來決定資料遷移的設計和實現,並提供給錯誤事件事實表和審計維度表需要的相關資料。
2.錯誤事件事實表
錯誤事件事實表及相關的一系列維度表是資料質量檢查部分的乙個主要交付物。粒度是每一次資料質量檢查中的錯誤資訊。相關維度包括日期維度表、遷移資訊維度表、錯誤事件資訊維度表,其中錯誤事件資訊維度表中檢查的型別、源系統的資訊、涉及的表資訊、檢查使用的sql等內容。錯誤事件事實表不提供給前台使用者。
3.審計維度表
審計維度表是給終端使用者提供資料質量說明的乙個維度表。它描述了使用者使用的事實表的資料**,資料質量情況等內容。
四.如何來量化資料倉儲中的資料質量?
在資料倉儲專案中,通常通過不規則資料的檢測工作(anomaly detection)來量化源系統的資料質量。除非成立專門的資料質量調查專案組,否則這個工作應該由etl專案組完成。通常可以採用分組sql來檢查資料是否符合域的定義規則。
對於資料量小的表,可以直接使用類似下面的sql完成。select state, count(*) from order_detail group by state
對於資料量大的表,一般通過取樣技術來減少資料量,然後進行不規則資料檢測。類似sql如下。
select a.* from employee a, (select rownum counter, a.* from employee a) b where a.emp_id = b.emp_id and mod(b.counter, trunc((select count(*) from employee)/1000,0)) = 0
如果可以採用專門的資料概況分析工具進行的話,可以減少很大的工作量。
ETL架構師面試題
本部分的題目來自 kimball 的etl toolkit分析1 什麼是邏輯資料對映?它對 etl專案組的作用是什麼?2 在資料倉儲專案中,資料探索階段的主要目的是什麼?3 如何確定起始 資料?架構4 在etl 過程中四個基本的過程分別是什麼?5 在資料準備區中允許使用的資料結構有哪些?各有什麼優缺...
etl工程師 面試題 面試ETL題總匯
etl 面試題總匯 一 分析 什麼是邏輯資料對映?它對 etl專案組的作用是什麼?答 邏輯資料對映 logical data map 用來描述源系統的資料定義 目標資料倉儲的模型以及 將源系統的資料轉換到資料倉儲中需要做操作和處理方式的說明文件,通常以 或 excel 的格式儲存如下的資訊 目標表名...
怎麼面試架構師
其實本文想說的是 當面試乙個架構師的時候,我們應該問什麼問題?我覺得,問什麼樣的問題,體現了team leader更加看重架構師的哪些特點。我一直認為,做技術就跟練武一樣,在練武的不同階段,分招式和心法。技術也一樣,在不同的階段,也分招式和心法。另外,就我個人而言,經常忘記招式,一方面可以說十二年來...