面經頭條數倉

2019-06-16

星型模型、雪花模型

根據事實表和維度表的關係，又可將常見的模型分為星型模型和雪花型模型。

星型架構是一種非正規化的結構，多維資料集的每乙個維度都直接與事實表相連線，不存在漸變維度，所以資料有一定的冗餘

當有乙個或多個維表沒有直接連線到事實表上，而是通過其他維表連線到事實表上時，其**就像多個雪花連線在一起，故稱雪花模型。

它的優點是 : 通過最大限度地減少資料儲存量以及聯合較小的維表來改善查詢效能。雪花型結構去除了資料冗餘。此在冗餘可以接受的前提下，實際運用中星型模型使用更多，也更有效率（空間換易用與效率）。

sql，至少兩天內登陸的使用者

select user_pin,num from
(select user_pin,
count(*
)as num from
(select user_pin,days - rn as flag from
(select user_pin,ordr_time,datediff(ordr_time,
'2019-07-01'
)as days,row_number(
)over
(partition
by user_pin order
by ordr_time asc
)as rn 
from idm.idm_f02_fin_xjk_tx_dtl_s_d where dt=sysdate(-1
)and to_date(ordr_time)
>=
'2019-07-01'
and(user_pin is
notnull
or user_pin='')
)s1        )s2
group
by user_pin,flag
)s3where num>=
2

lateral view 與 explode使用

select s.title,ex
from movie_message s
lateral view explode(split(concat_ws(
',',
'1',
'2',
'3',
'4',
'5',
'6',
'7',
'8',
'9')
,','
)) t as ex

6. map的優化，map個數如何確定

map數過多:

合併小檔案：通過以下方法來在map執行前合併小檔案，減少map數：

set mapred.max.split.size=
100000000
;set mapred.min.split.size.per.node=
100000000
;set mapred.min.split.size.per.rack=
100000000
;set hive.input.format=org.apache.hadoop.hive.ql.io.combinehiveinputformat;

group by 和distinct

使用distinct會將所有的資料都shuffle到乙個reducer裡面，導致資料傾斜。

能使用group by代替distinc就不要使用distinct。

資料傾斜問題、解決

（1）hive.groupby.skewindata=true

負載均衡，當選項設定為 true，生成的查詢計畫會有兩個 mr job。第乙個 mr job 中，map 的輸出結果集合會隨機分布到 reduce 中，每個 reduce 做部分聚合操作，並輸出結果，這樣處理的結果是相同的 group by key 有可能被分發到不同的 reduce 中，從而達到負載均衡的目的；第二個 mr job 再根據預處理的資料結果按照 group by key 分布到 reduce 中（這個過程可以保證相同的 group by key 被分布到同乙個 reduce 中），最後完成最終的聚合操作。

（2）大小表使用mapjoin

（3）group by代替distinct

（4）空值的 key 變成乙個字串加上隨機數，就能把傾斜的資料分到不同的reduce上 ,解決資料傾斜問題

小表關聯大表

在命令列開啟mapjoin功能：

set hive.auto.convert.join=true;

事實上「把小表放在前面做關聯可以提高效率」這種說法是錯誤的。正確的說法應該是「把重複關聯鍵少的表放在join前面做關聯可以提高join的效率。」

面經頭條數倉

面經數倉頭條

頭條面經分析

頭條ai lab視覺組實習面經

面經 頭條 數倉

面經 數倉 頭條

頭條面經分析

頭條ai lab視覺組實習面經

相關推薦

面經頭條數倉

面經數倉頭條