這一篇文章我們的目的是搞懂這四種表的概念,閒話不多說,直接看文字。
全量表
全量表沒有分割槽,表中的資料是前一天的所有資料,比如說今天是24號,那麼全量表裡面擁有的資料是23號的所有資料,每次往全量表裡面寫資料都會覆蓋之前的資料,所以全量表不能記錄歷史的資料情況,只有截止到當前最新的、全量的資料。
快照表
那麼要能查到歷史資料情況又該怎麼辦呢?這個時候快照表就派上用途了,快照表是有時間分割槽的,每個分割槽裡面的資料都是分割槽時間對應的前一天的所有全量資料,比如說當前資料表有3個分割槽,24號,25號,26號。其中,24號分割槽裡面的資料就是從歷史到23號的所有資料,25號分割槽裡面的資料就是從歷史到24號的所有資料,以此類推。
但是這樣也有乙個問題,就是資料量大的時候,其實每個分割槽都儲存了許多重複的資料,非常的浪費儲存空間。
於是乎,拉鍊表就出來了。
在介紹拉鍊表之前,我們先介紹一下增量表。
增量表
增量表,就是記錄每天新增資料的表,比如說,從24號到25號新增了那些資料,改變了哪些資料,這些都會儲存在增量表的25號分割槽裡面。上面說的快照表的25號分割槽和24號分割槽(都是t+1,實際時間分別對應26號和25號),它兩的資料相減就是實際時間25號到26號有變化的、增加的資料,也就相當於增量表裡面25號分割槽的資料。
拉鍊表
好了,關於四種表的概念介紹到這裡了,有說的不對的地方還請指出,互相進步。
拉鍊表 增量表 全量表
記錄乙個事物從開始到當前狀態的所有的變化資訊。適用於 資料量非常大的表 表中的某些欄位會被更新操作 需要檢視歷史資訊 表的資料更新變化不是很大。拉鍊表中會定義資料的st date和end date。初始表a cust id account st dt end dt a100 20170801 299...
hive增量表和全量表 拉鍊表小結
記錄每條資訊的生命週期,一旦一條資訊的生命週期結束,就重新開始一條新紀錄,並把當前日期放入生效日期。如果當前日期至今有效,在結束日期放入乙個最大值,例如 9999 99 99 優勢 訂單1經歷了四個生命週期,如果每天增量同步資料,則一年有365條資料,而拉鍊表只會產生4條資料 通常要在原表的基礎上加...
真正秒懂增量表 全量表和拉鍊表
增量表 記錄更新週期內新增的資料,即在原表中資料的基礎上新增本週期內產生的新資料 全量表 記錄更新週期內的全量資料,無論資料是否有變化都需要記錄 拉鍊表 一種資料儲存和處理的技術方式,可以記錄資料的歷史資訊,記錄資料從開始一直到當前所有變化的資訊。增量表 以頁面訪問資料表為例,假設該錶從2020 0...