面試題 數倉專案技術如何選型?

2021-10-07 06:09:22 字數 393 閱讀 5381

要提供兩套方案,紅色的一套,黑色的一套,提供對比

優先選擇紅色的那一套,因為比較通用,而且熟悉

flume解決日誌的採集,kafka解決訊息的分發和消峰,sqoop用於hdfs和關係型資料庫進行資料的傳遞

mysql主要用於查詢,它用於儲存與前端程序互動比較頻繁的資料,因為查詢要速度比較塊,hdfs主要用於儲存,用於儲存計算和分析的資料量大的資料

hive是底層是基於mr,速度慢,tez基於記憶體,資料在計算過程中不落盤,都儲存在記憶體中,速度快,spark同理

presto和impala是同型別同級別的框架,druid在處理實時即席查詢比kylin強一些

面試題 數倉

如何判定乙個表是事實表還是維度表?資料建模過程說一下?三正規化緩慢變化維處理方式?什麼也不該,保留原始值 直接覆蓋 增加新行,需要為新航分配新的 鍵 增加新屬性列 增加微型維度 某些維度屬性變化較快導致維度表越來越大可以把這些屬性柴麗出來單獨構建微型維度表 雙重外來鍵並且方式1與方式2結合 在方式2...

2020數倉面試題

問答題 1.了解到的從資料庫抽取資料到數倉的軟體都有那些,目前大資料平台大多不支援updata操作,針對每日增量資料與歷史資料合併,常用的都有那些方法。解題關鍵點 full outer join insert overwrite 每天保留乙份全量快照 2.有沒有遇到過資料質量的問題,一般都是那些環節...

大資料數倉面試流程和重點面試題

一 自我介紹 看簡歷 表達能力 2 3分鐘左右 學歷 參加工作 愛好 特長 二 專案 背三 資料倉儲 1 以數倉為中心 不要直接上來說ods dwd dws ads 2 正規化建模與維度建模的方式區別 3 主題劃分是否合適 4 事實表與維度表的介紹 有多少張,哪些緩解進行度量 5 總結矩陣 6 變化...