ads層由於本身的資料很少,一天只有幾條或幾十條,並且資料匯出常常為全量匯出。所以沒有進行分割槽,,也沒有才有壓縮和列式儲存。採用的資料裝載語句也是insert into,而不是insert override。但這樣就會帶來乙個在hdfs中非常嚴重的問題——小檔案過多。ads層每插入一條資料,就會生成乙個小檔案,這樣就會形成大量小檔案。
可以在每次匯入資料時,把歷史資料查出來,不用修改,再把今天的資料拿過來,兩者union all。這樣就不會產生小檔案了。
insert override table ads_order_daycount
select
'2020-06-24'
,sum
(order_count)
,sum
(order_amount)
,sum(if
(order_count>0,
1,0)
)from
dws_user_action_daycount
where
dt='2020-06-24'
union
allselect
*from
dws_user_action_daycount;
千億數倉的sql
需求1 資料 統計2019年期間每個季度的銷售訂單筆數 訂單總額 select case when month createtime between 1 and 3 then 一季度 when month createtime between 4 and 6 then 二季度 when month ...
SQL小技巧總結。
一 sql server如何判斷某個字段包含大寫字母 sql語句中預設是不區分大小寫的,所以語句 sql select from recenginebizinfo where recenginebizname qq 和 sql select from recenginebizinfo where r...
實時數倉與脫機數倉總結 一
精選30 雲產品,助力企業輕鬆上雲!主要內容 數倉基本概念 數倉架構演變 實時數倉和脫機數倉的區別 數倉基本概念 首先說一下資料倉儲的概念,以下簡稱數倉。數倉的發展 數倉有兩個環節 乙個是數倉的建設 另乙個數倉的應用。早期的數倉 傳統數倉 目前 數倉的架構演變 脫機數倉和實時數倉 接下來我會分別介紹...