大資料數倉面試流程和重點面試題

2022-09-17 08:42:11 字數 644 閱讀 4002

一、自我介紹

看簡歷+表達能力

2-3分鐘左右(學歷、參加工作、愛好、特長)

二、專案

背三、資料倉儲

1、以數倉為中心

不要直接上來說ods、dwd、dws、ads

2、正規化建模與維度建模的方式區別

3、主題劃分是否合適

4、事實表與維度表的介紹

有多少張,哪些緩解進行度量

5、總結矩陣

6、變化的資料如何處理,拉鍊表還是?

7、不常變化的資料,如何處理

四、資料治理

1、源資料報括哪些種類

hive、spark、kafka源資料

分幾類2、指標體系的建設與維護

公司某個業務的指標

3、olap-clickhouse(惡樓跑)

存在哪些問題

提公升了多少速度

4、spark-數倉中的一部分

底層了解

寬窄依賴

shuffle

jobrdd

spark開發,資料處理(非結構化資料清洗轉換為關係型資料)

5、開發

hive的資料傾斜

hive調優過程

mr多表join定位處理

開窗函式的場景和使用,考察sql的完整程度

面試題 數倉

如何判定乙個表是事實表還是維度表?資料建模過程說一下?三正規化緩慢變化維處理方式?什麼也不該,保留原始值 直接覆蓋 增加新行,需要為新航分配新的 鍵 增加新屬性列 增加微型維度 某些維度屬性變化較快導致維度表越來越大可以把這些屬性柴麗出來單獨構建微型維度表 雙重外來鍵並且方式1與方式2結合 在方式2...

2020數倉面試題

問答題 1.了解到的從資料庫抽取資料到數倉的軟體都有那些,目前大資料平台大多不支援updata操作,針對每日增量資料與歷史資料合併,常用的都有那些方法。解題關鍵點 full outer join insert overwrite 每天保留乙份全量快照 2.有沒有遇到過資料質量的問題,一般都是那些環節...

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...