etl
面試題總匯
一、分析
.什麼是邏輯資料對映?它對
etl專案組的作用是什麼?
答:邏輯資料對映(
logical data map
)用來描述源系統的資料定義、目標資料倉儲的模型以及
將源系統的資料轉換到資料倉儲中需要做操作和處理方式的說明文件,
通常以**或
excel
的格式儲存如下的資訊:
目標表名:
目標列名:
目標表型別:註明是事實表、維度表或支架維度表。
scd型別:對於維度表而言。三種
scdslowly changing dimension
)技術scd1
直接修改原維表資訊,不儲存任何維歷史資訊。
scd2
建立新的記錄而不刪除或修改原有維資訊。
可通過為每條記錄設定過期時間、
生效時間兩個欄位來區分各歷史記錄和當前記錄(歷史記錄的過期時間均早於當前記錄的生效時
間)。scd3
在維表中定義歷史資訊字段,只儲存有限的歷史資訊(此技術很少應用)
源資料庫名:源資料庫的例項名,或者連線字串。
源表名:
源列名:
轉換方法:需要對源資料做的操作,如
sum(amount)
等。邏輯資料對映應該貫穿資料遷移專案的始終,在其中說明了資料遷移中的
etl策略。在進
行物理資料對映前進行邏輯資料對映對
etl專案組是重要的,它起著元資料的作用。專案
中最好選擇能生成邏輯資料對映的資料遷移工具。
補充:邏輯資料對映分為兩種
1:模型對映
從源模型到
dw目標模型之間的對映型別有:
ETL架構師面試題
本部分的題目來自 kimball 的etl toolkit分析1 什麼是邏輯資料對映?它對 etl專案組的作用是什麼?2 在資料倉儲專案中,資料探索階段的主要目的是什麼?3 如何確定起始 資料?架構4 在etl 過程中四個基本的過程分別是什麼?5 在資料準備區中允許使用的資料結構有哪些?各有什麼優缺...
ETL架構師面試題(四)
資料質量 一 資料質量檢查的四大類是什麼?為每類提供一種實現技術。資料質量檢查是etl工作中非常重要的一步,主要關注以下四個方面。1 正確性檢查 corret 檢查資料值及其描述是否真實的反映了客觀事務。例如位址的描述是否完全。2 明確性檢查 unambiguous 檢查資料值及其描述是否只有乙個意...
新浪php工程師面試題
1 cookie session的聯絡和區別,多台web伺服器如何共享session?2 http協議中的post和get有何區別?3 一段php 寫出輸出結果 這個程式 a 0 b 0 if a 3 0 b 3 0 4 reqiure的include都可包含檔案,二者的區別何在?5 php中web...