大資料資料倉儲是基於hive構建的資料倉儲,分布檔案系統為hdfs,資源管理為yarn,計算引擎主要包括mapreduce/tez/spark等,分層架構如下:
1、資料**層:日誌或者關係型資料庫,並通過flume、sqoop、kettle等etl工具匯入到hdfs,並對映到hive的資料倉儲表中。
2、事實表是資料倉儲結構中的**表,它包含聯絡事實與維度表的數字度量值和鍵。事實資料表包含描述業務(例如產品銷售)內特定事件的資料。
3、維度表是維度屬性的集合。是分析問題的乙個視窗。是人們觀察資料的特定角度,是考慮問題時的一類屬性,屬性的集合構成乙個維。資料庫結構中的星型結構,該結構在位於結構中心的單個事實資料表中維護資料,其它維度資料儲存在維度表中。每個維度表與事實資料表直接相關,且通常通過乙個鍵聯接到事實資料表中。星型架構是資料倉儲比較流向的一種架構。
星型模式的基本思想就是保持立方體的多維功能,同時也增加了小規模資料儲存的靈活性。
說明:1)、事實表就是你要關注的內容;
2)、維度表就是你觀察該事務的角度,是從哪個角度去觀察這個內容的。
例如,某地區商品的銷量,是從地區這個角度觀察商品銷量的。事實表就是銷量表,維度表就是地區表
4、主題表:主題(subject)是在較高層次上將企業資訊系統中的資料進行綜合、歸類和分析利用的乙個抽象概念,每乙個主題基本對應乙個巨集觀的分析領域。在邏輯意義上,它是對應企業中某一巨集觀分析領域所涉及的分析物件。例如「銷售分析」就是乙個分析領域,因此這個資料倉儲應用的主題就是「銷售分析」。
面向主題的資料組織方式,就是在較高層次上對分析物件資料的乙個完整並且一致的描述,能刻畫各個分析物件所涉及的企業各項資料,以及資料之間的聯絡。所謂較高層次是相對面向應用的資料組織方式而言的,是指按照主題進行資料組織的方式具有更高的資料抽象級別。與傳統資料庫面向應用進行資料組織的特點相對應,資料倉儲中的資料是面向主題進行組織的。例如,乙個生產企業的資料倉儲所組織的主題可能有產品訂貨分析和貨物發運分析等。而按應用來組織則可能為財務子系統、銷售子系統、**子系統、人力資源子系統和生產排程子系統。
5、彙總資料層:聚合原子粒度事實表及維度表,為滿足固定分析需求,以提高查詢效能為目的,形成的高粒度表,如週報、月報、季報、年報等。
6、應用層:
為應用層,這層資料是完全為了滿足具體的分析需求而構建的資料,也是星形結構的資料。應用層為前端應用的展現提現資料,可以為關係型資料庫組成。
7、【補充】
資料快取層:
用於存放介面方提供的原始資料的資料庫層,此層的表結構與源資料保持基本一致,資料存放時間根據資料量大小和專案情況而定,如果資料量較大,可以只存近期資料,將歷史資料進行備份。此層的目的在於資料的中轉和備份。
臨時資料表層:
存放臨時測試資料表(temp表),或者中間結果集的表。
資料倉儲分層架構設計
這應該是資料倉儲同學在設計資料分層時首先要被挑戰的問題,類似的問題可能會有很多,比如說 為什麼要做資料倉儲?為什麼要做元資料管理?為什麼要做資料質量管理?當然,這裡我們只聊一下為什麼要做設計資料分層。作為一名資料的規劃者,我們肯定希望自己的資料能夠有秩序地流轉,資料的整個生命週期能夠清晰明確被設計者...
資料倉儲分層架構
在一篇部落格看見了有關資料倉儲分層的內容,概括如下 複製層 ssa,system of records staging area ssa 直接複製源系統的資料,盡量保持業務資料的原貌 與源系統資料唯一不同的是,ssa 中的資料在源系統資料的基礎上加入了時間戳的資訊,形成了多個版本的歷史資料資訊。原子...
資料倉儲架構分層
資料倉儲簡介 有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以 如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科...