1.資料同步
因為我們需要每天分析的資料都是最新的!!!所以就涉及資料的同步
2.表的種類及其概念:
一般情況下表分為三個型別,分別是實體表、維度表和事務表
2.1 實體表:
實體表,一般是指乙個現實存在的業務物件,比如使用者,商品,商家,銷售員等等。
2.2 維度表:
維度表,一般是指對應一些業務狀態,**的解釋表。也可以稱之為碼表。比如地區表,訂單型別,支付方式,審批狀態,商品分類等等。
2.3 事實表:
3.劃分表的同步策略
3.1 實體表
可以做每日全量,就是每天存乙份完整資料。即每日全量。
如果資料量較大比如百萬級以上的可以把歷史資料(比如半年以前的)做成拉鍊表,更久遠的冷資料可以直接歸檔(單獨移出,存到其他硬碟上)。
3.2 維度表
可能會有變化的資料可以儲存每日全量。(比如訂單型別,審批狀態,商品分類)
3.3 事實表
表型別
增長變化方式
資料量同步策略(固定,每日增量、每日全量、每日新增變化、拉鍊表)
實體表增加、變化
中等近期每日全量,遠期拉鍊表,更遠期存磁碟
週期型事實表
增加、變化
大增加及變化量 拉鍊表
事務型事實表增加大
每日增量
一般維度表
增加、變化
小每日全量
固定維度表不變小
固定存乙份
① 固定維度表:比如中國的省份表, 不會增加,不會變動,固定存乙份就行。
② 事務性事實表:比如訂單流水, 只會增加,不會變動。每日增量。
③ 週期型事務表、實體表、一般維度表 :我的建議是將增加及變化量做拉鍊表 或者 每日全量(資料量大不要考慮)
資料倉儲之資料同步策略
一般情況下表分為三個型別,分別是實體表 維度表和事務表 1.實體表 實體表,一般是指乙個現實存在的業務物件,比如使用者,商品,商家,銷售員等等。2.維度表 維度表,一般是指對應一些業務狀態,的解釋表。也可以稱之為碼表。比如地區表,訂單型別,支付方式,審批狀態,商品分類等等。維度表可以分為兩類 一般維...
資料倉儲 資料同步策略
二.資料同步策略 一般是指乙個現實中存在的業務物件,實體表它放的資料一定是一條條客觀存在的事物資料,比如使用者,商家,商品等 某東上的某某人參丸就是乙個實體 3。一般是指業務中的一些狀態,的解釋表 也稱為碼表 維度表可以看成是使用者用來分析乙個事實的視窗,它裡面的資料應該是對事實的各個方面描述。維度...
資料倉儲之源資料同步
1.資料同步 因為我們需要每天分析的資料都是最新的,所以就涉及資料同步。2.表的種類及其概念 一般情況下表分為三個型別,分別是實體表 維度表和事務表 2.1 實體表 實體表,一般是指乙個現實存在的業務物件,比如使用者,商品,商家,銷售員等等。2.2 維度表 維度表,一般是指對應一些業務狀態,的解釋表...