資料倉儲簡介:有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop、spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以;如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科學的資料管理方法。資料倉儲是一門資料管理的科學,資料倉儲的核心就是計算、儲存和維護之間的博弈。
源資料層:源資料一般具有多**、多型別特徵,可能使用多種資料庫,甚至是非結構化資料,是資料倉儲中資料最複雜的一層,需要工程師對多種資料庫多種資料型別都有一定了解。
中間儲存層:中間層資料和源資料基本保持一致,儲存著最細粒度的資料。中間層可以說是資料倉儲最重要的一層,是所有後期分析的資料基礎。中間儲存層一般存放所有的明細資料,具有資料量大,查詢計算較慢的特點。
多維資料層:多維資料層是經過清洗的,有價值的資料。多維資料層是在儲存層的基礎上清洗髒資料、刪選有價值資料,並且對儲存層的事實維度表進行事實維度分離。與中間儲存層相比,多維資料層與儲存層有著相同的資料粒度,但是具有更小的資料量、更快的查詢速度。
資料集市層:它是面向主題輕度彙總的資料,在某主題的最細粒度資料,能滿足該主題所有需求。資料集市是按照某一主題彙總,既可以由多維資料層彙總,也可是其他集市表進一步彙總,通常是星狀、雪花狀資料和網狀模型。資料集市層主題明確,極大減少使用方理解及使用成本
應用層:這一層就是大家看到的各種報表,一般都是在資料集市基礎上按照各種特定維度彙總的結果。應用層是面向使用者的,資料具有極快的響應速度。
資料倉儲分層架構
在一篇部落格看見了有關資料倉儲分層的內容,概括如下 複製層 ssa,system of records staging area ssa 直接複製源系統的資料,盡量保持業務資料的原貌 與源系統資料唯一不同的是,ssa 中的資料在源系統資料的基礎上加入了時間戳的資訊,形成了多個版本的歷史資料資訊。原子...
資料倉儲分層架構設計
大資料資料倉儲是基於hive構建的資料倉儲,分布檔案系統為hdfs,資源管理為yarn,計算引擎主要包括mapreduce tez spark等,分層架構如下 1 資料 層 日誌或者關係型資料庫,並通過flume sqoop kettle等etl工具匯入到hdfs,並對映到hive的資料倉儲表中。2...
資料倉儲分層架構設計
這應該是資料倉儲同學在設計資料分層時首先要被挑戰的問題,類似的問題可能會有很多,比如說 為什麼要做資料倉儲?為什麼要做元資料管理?為什麼要做資料質量管理?當然,這裡我們只聊一下為什麼要做設計資料分層。作為一名資料的規劃者,我們肯定希望自己的資料能夠有秩序地流轉,資料的整個生命週期能夠清晰明確被設計者...