資料倉儲之資料同步策略

2021-09-11 18:15:27 字數 1359 閱讀 2422

一般情況下表分為三個型別,分別是實體表、維度表和事務表

1.實體表:

實體表,一般是指乙個現實存在的業務物件,比如使用者,商品,商家,銷售員等等。

2.維度表:

維度表,一般是指對應一些業務狀態,**的解釋表。也可以稱之為碼表。比如地區表,訂單型別,支付方式,審批狀態,商品分類等等。

維度表可以分為兩類:一般維度表和固定維度表

一般維度表的資料是不斷增加和變化的

固定維度表的資料是不變的

3.事實表:

事實表分為兩類:事務型事實表週期型事實表

事務型事實表,一般指隨著業務發生不斷產生的資料。特點是一旦發生不會再變化。 一般比如,交易流水,操作日誌,出庫入庫記錄等等。

週期型事實表,一般指隨著業務發生不斷產生的資料。與事務型不同的是,資料會隨著業務週期性的推進而變化。

比如訂單,其中訂單狀態回週期性變化。 再比如,請假、貸款申請,隨著批覆狀態在週期性變化。

可以做每日全量,就是每天存乙份完整資料。即每日全量。

如果資料量較大比如百萬級以上的可以把歷史資料(比如半年以前的)做成拉鍊表,更久遠的冷資料可以直接歸檔(單獨移出,存到其他硬碟上)。

可能會有變化的資料可以儲存每日全量。(比如訂單型別,審批狀態,商品分類)

每日增量: 因為資料不會變化,而且資料量巨大,所以每天只同步新增資料即可。每日分割槽。

首先這類表從資料量的角度,存每日全量的話,資料量太大,冗餘也太大。

如果用每日增量的話無法反應資料變化。

每日新增及變化量可以用,包括了當日的新增和修改。一般來說這個表,足夠計算大部分當日資料的。

但是這種依然無法解決能夠得到某乙個歷史時間點(時間切片)的切片資料。

所以要用利用每日新增和變化表,製作一張拉鍊表,以方便的取到某個時間切片的快照資料。

所以我們需要得到每日新增及變化量。

表型別增長變化方式

資料量同步策略(固定,每日增量、每日全量、每日新增變化、拉鍊表)

實體表增加、變化

中等近期每日全量,遠期拉鍊表,更遠期存磁碟

週期型事實表

增加、變化

大增加及變化量 拉鍊表

事務型事實表增加大

每日增量

一般維度表

增加、變化

小每日全量

固定維度表不變小

固定存乙份

資料倉儲之資料同步策略

1.資料同步 因為我們需要每天分析的資料都是最新的!所以就涉及資料的同步 2.表的種類及其概念 一般情況下表分為三個型別,分別是實體表 維度表和事務表 2.1 實體表 實體表,一般是指乙個現實存在的業務物件,比如使用者,商品,商家,銷售員等等。2.2 維度表 維度表,一般是指對應一些業務狀態,的解釋...

資料倉儲 資料同步策略

二.資料同步策略 一般是指乙個現實中存在的業務物件,實體表它放的資料一定是一條條客觀存在的事物資料,比如使用者,商家,商品等 某東上的某某人參丸就是乙個實體 3。一般是指業務中的一些狀態,的解釋表 也稱為碼表 維度表可以看成是使用者用來分析乙個事實的視窗,它裡面的資料應該是對事實的各個方面描述。維度...

資料倉儲之源資料同步

1.資料同步 因為我們需要每天分析的資料都是最新的,所以就涉及資料同步。2.表的種類及其概念 一般情況下表分為三個型別,分別是實體表 維度表和事務表 2.1 實體表 實體表,一般是指乙個現實存在的業務物件,比如使用者,商品,商家,銷售員等等。2.2 維度表 維度表,一般是指對應一些業務狀態,的解釋表...