資料倉儲是由外部多個資料來源彙總整合的,「整合」這個詞代表並不是簡單的堆積,而是需要進行一些邏輯處理,數倉的整合就是這樣,因為外部資料來源都是異構的,所以需要做很多任務作才可以進行整合,這些工作包括但不限於:欄位的意義統一,輕度統計等。
抽取資料
有如下策略:
時間戳判斷
掃瞄增量檔案
日誌檔案,審計檔案掃瞄
修改應用程式(很少使用)
映像檔案掃瞄(很少使用)
另外,抽取的資料需要增加時間戳(必須的),儲存到介質裡面需要進行壓縮。
資料模型
高層模型,實體關係圖(entity relationship diagram,erd),主要目的是識別實體
中間層模型(dis),識別實體中欄位
物理模型,基於技術選型,做一些基於物理層配置;大多數情況下中間層和物理層模型一致,這個其實和db designer裡面的三種模式向對應:高層,業務層以及物理層(高層我記不清叫什麼名字了)。
元資料
包括不限於:
資料進入到倉庫的轉換
資料模型
資料模型和資料倉儲的關係
抽取資料的歷史記錄
時間間隔
並非越快越好,給資料一些修改的機會,一旦進了dw之後如果再想修改就難了。
關於etl和elt
這個話題比較有趣,很多大牛講忽略他們的區別,但是他們區別還是比較大,關鍵就是在於t,即transformation,資料的(變形)處理,比如資料型別的統一;etl,這個資料處理是在進入到dw之前就做完了,使用的etl的資源來做這件事情;elt,則是在進入到dw之後,利用其它資料庫工具來做資料處理(比如spark);所以他們的區別就是使用的資源節點不同。(下圖參考「etl與elt的區別與聯絡」)
dw記錄的觸發
乙個是業務活動,乙個是時間,如果是前者一般將會實時觸發,後者則是定時跑批
dw的一條記錄(快照)是有如下部分組成:
時間關鍵字
主要非關鍵字
二級資料
dw的有一種記錄稱之為概要記錄,是一種粗粒度資料,會丟失一些細節,但是這些細節對於dss人員而言並不重要;為了避免細節丟失,可以將這些細節放置到廉價的儲存介質中,以備未來某個場景需要
星型結構
只適合於資料集市,所謂星型結構是指事實表作為中心表,事實表中每個欄位都可以關聯到一張維度表,之所以稱之為維度表,是因為事實表中每個欄位都是「乙個維度」,描述一類資訊的關鍵字,可以通過事實表中的維度輻射到具體維度的資訊。
但是有乙個乙個問題:為什麼星型結構只適合資料集市,而不是資料倉儲呢?因為星型結構本身就是針對具體的業務來構建起來的,而資料倉儲的結構不是為某個部門,某個業務,而是全域性性的資料服務,所以星型結構並不適合資料倉儲。
ods
ods,operational data store,操作性資料儲存,裡面儲存的都是概要性資料。ods中資料有來自於操作型環境,還有來自於資料倉儲分析的結果。
zachman框架構建
zachman是構建資料倉儲的架構
etl構建資料倉儲五步法 ETL構建資料倉儲五步法
精品資料推薦 etl構建資料倉儲五步法 在資料倉儲構建中,etl貫穿於專案始終,它是整個資料倉儲的生命線,包括了從資料清洗,整合,到轉換,載入等的各個過程,如果說資料倉儲是一座大廈,那 麼etl 就是大廈的根基,etl抽取整合資料的好壞直 接影響到最終的結果展現。所以etl 在整個資料倉儲專案中起著...
etl構建資料倉儲五步法 資料倉儲建模篇
1 什麼叫資料倉儲?資料倉儲的特點?首先,用於支援決策,面向分析型資料處理,它不同於企業現有的操作型資料庫 其次,對多個異構的資料來源有效整合,整合後按照主題進行了重組,幷包含歷史資料,而且存放在資料倉儲中的資料一般不再修改。資料倉儲是乙個面向主題的 subject oriented 整合的 int...
構建企業級資料倉儲的五步法
一.確定主題 即確定資料分析或前端展現的主題 例如 某年某月某地區的啤酒銷售情況 主題要體 現出某一方面的各分析角度 維度 和統計數值型資料 量度 之間的關係,確定主題時要 綜合考慮.二.確定量度 確定主題後,需要考慮分析的技術指標 例如 年銷售額等 它們一般為數值型資料,其中有些度量值不可以彙總 ...