二、數倉和資料庫的區別
三、數倉的資料**
四、數倉的分層
五、數倉建模
六、數倉調優
七、資料維護
資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
概括來看,數倉有以下四個特徵:
與傳統資料庫面向應用進行資料組織的特點相對應,資料倉儲中的資料是面向主題
進行組織的。
什麼是主題呢?泛指資料的主要內容,在邏輯意義上,可以對應某一巨集觀的分析領域。資料倉儲是主觀建立並且面向分析的,它可能隨著人的變化而變化,也會隨著時間而變化,對應資料的主題也隨之會發生變化。
資料倉儲的資料是從原有的分散的多個資料庫、資料檔案和資料段中抽取來的,資料**可能既有內部資料又有外部資料。 由於**於不同聯機系統的資料都和不同的邏輯繫結在一起,而資料倉儲中的資料絕大多數不能從原有的資料庫中直接得到,因此,在資料進入數倉前,必須對資料進行統一和綜合,這一步是資料倉儲建設中最關鍵
、最複雜
的一步,所要完成的工作有:
數倉中資料主要供企業做決策分析,涉及的資料操作主要是資料查詢
,所以一般情況下不進行修改操作。資料倉儲的資料反映的是一段相當長的時間內歷史資料的內容,是不同時點的資料庫快照的集合,以及基於這些快照進行統計、綜合和重組的匯出資料,而不是聯機處理的資料。資料倉儲的目的就是要根據曾經發生的事件進行分析,如果資料是可修改的,將使歷史分析變得沒有意義;
當我們去**資料倉儲和資料庫的區別與聯絡時,我們先要了解的聯機事務處理oltp
(on-line transaction processing)和聯機分析處理olap
(on-line analytical processing)之間的區別和聯絡。
傳統的關係型資料庫的主要應用是oltp,主要是基本的、日常的事務處理
;資料倉儲系統的主要應用主要是olap,支援複雜的分析操作,側重決策支援
,並且提供直觀易懂的查詢結果。
oltp
olap
應用場景
面向事務(行級操作)
面向分析(範圍操作)
是否更新
可更新的
唯讀,只追加
設計模型
實體-關係(er)模型
星型、星座模型或雪花模型
資料規模
gbtb/pb
資料儲存
儲存瞬時資料
儲存歷史資料
資料表徵
最新資料狀態
隨時間變化的歷史狀態
除了以上的區別之外,還有以下根本的區別:
第三方提供的資料;
其他渠道資料;
數倉分層的目的是:逐層解耦,減少重複計算,降低煙囪式開發。越到底層,越接近業務發生的記錄,越到上層,越接近業務目標。具體如下:
存放未經過處理的原始資料至資料倉儲系統,結構上與源系統保持一致,是資料倉儲的資料準備區。
ods層的作用:
dwd層是以業務過程為驅動,基於每個具體的業務過程特點,構建最細粒度的明細層事實表。可以結合企業的資料使用特點,將明細事實表的某些重要維度屬性欄位做適當冗餘,即寬表化處理。同時,為了提高資料明細層的易用性,該層會採用一些維度退化手法,將維度退化至事實表中,減少事實表和維表的關聯,在該層也會做一部分的資料聚合,將相同主題的資料匯集到一張表中,提高資料的可用性。
具體操作如下:
資料集市層,這層資料是面向主題來組織資料的,通常是星形或雪花結構的資料。以分析的主題物件為建模驅動,基於上層的應用和產品的指標需求,構建主題物件的全量寬表dm層主題寬表都記錄什麼字段?每個維度關聯的不同事實表度量值以及首次、末次時間、累積至今的度量值、累積某個時間段的度量值。
為應用資料層,針對大主題指標分別進行分析,根據業務具體需求,做對應的統計分析指標。這層資料是完全為了滿足具體的分析需求而構建的資料,也是星形或雪花結構的資料。從資料粒度來說是高度彙總的資料。從資料的廣度來說,則並不一定會覆蓋所有業務資料,而是dm層資料的乙個真子集,從某種意義上來說是dm層資料的乙個重複。
資料模型建設的意義:
作者主頁:
資料倉儲理論
資料倉儲的概念原先為 商業資料倉儲 本質上,資料倉儲是一種從操作性系統到決策支援環境的資料流架構模型,而數倉概念也是為了解決和這個資料流相關的各種問題,主要是解決多重資料複製帶來的高成本問題。在沒有資料倉儲的時代,需要大量的冗餘資料來支撐多個決策支援環境。inmon將資料倉儲描述為乙個面向主題的 整...
基於大資料的資料倉儲 資料倉儲建模基本理論
一 數倉建模的目標 訪問效能 能夠快速查詢所需的資料,減少資料i o。資料成本 減少不必要的資料冗餘,實現計算結果資料復用,降低大資料系統中的儲存成本和計算成本。使用效率 改善使用者應用體驗,提高使用資料的效率。資料質量 改善資料統計口徑的不一致性,減少資料計算錯誤的可能性,提供高質量的 一致的資料...
大資料之資料倉儲分層
資料分層是一套行之有效的資料組織和管理方法,使得資料體系更有序。1 清晰資料結構 每乙個資料分層都有它的作用域和職責,在使用表的時候能更方便的定位和理解。2 減少重複開發 規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算。3 統一資料口徑 通過資料分層,提供統一的資料出口,統一對外輸出...