資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧型的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。資料倉儲的特徵在於面向主題、整合性、穩定性和時變性。
我所經歷的大資料平台發展史(一):非網際網路時代 • 上篇
我所經歷的大資料平台發展史(二):非網際網路時代 • 下篇
我所經歷的大資料平台發展史(三):網際網路時代• 上篇
我所經歷的大資料平台發展史(四):網際網路時代• 下篇
網際網路數倉的發展比較有代表性的是阿里,以下是《阿里大資料之路》中的資料體系架構圖。
阿里資料體系架構圖
從上面的阿里體系架構圖中可以看出,數倉建模的主要工作在資料計算層,經過計算和整合後的資料才有價值,這個是數倉工作中的主要部分。對資料進行有序和有結構地分類組織和儲存,避免重複建設和資料不一致性,保證資料的規範性,讓資料發揮它的價值。
在資料倉儲技術出現前,有很多資料分析的先驅者已經發現,簡單的「直接訪問」方式很難良好工作,這樣做的失敗案例數不勝數。下面列舉一些直接訪問業務系統無法工作的原因:
1.某些業務資料由於安全或其他因素不能直接訪問。
2.業務系統的版本變更很頻繁,每次變更都需要重寫分析系統並重新測試。
3.很難建立和維護彙總資料**於多個業務系統版本的報表。
4.業務系統的列名通常是硬編碼,有時僅僅是無意義的字串,這讓編寫分析系統更加困難。
5.業務系統的資料格式,如日期、數字的格式不統一。
6.業務系統的表結構為事務處理效能而優化,有時並不適合查詢與分析。
7.沒有適當的方式將有價值的資料合併進特定應用的資料庫。
8.沒有適當的位置儲存元資料。
9.使用者需要看到的顯示資料字段,有時在資料庫中並不存在。
10.通常事務處理的優先順序比分析系統高,所以如果分析系統和事務處理執行在同一硬體之上,分析系統往往效能很差。
11.有誤用業務資料的風險。
12.極有可能影響業務系統的效能。
數倉的存在性:
1.相比操作型系統儲存資料,dw使用資料,操作型系統反映最新資料狀態,dw需收集海量歷史資料進行分析;
2.dw可以讓業務人員方便的獲得資料,有很強的資料服務能力;
3.dw統一口徑,以一致的形式展現資訊,避免出現指標正確性的爭論;
4.dw有良好的擴充套件性,業務發生變化,需要與歷史資料進行完美融合;
5.dw是提高決策制定能力的權威和可信的基礎,資料質量是生命線,有質量的資料才有說服力
數倉的特性:
1.面向主題的,按照一定的主題進行組織,主題是指使用者使用資料倉儲進行決策時所關心的重點方面,後面會重點舉例說明。
2.資料倉儲是整合的,資料倉儲的資料有來自於分散的操作型資料,將所需資料從原來的資料中抽取出來,進行加工和整合之後,進入資料倉儲。
3.資料倉儲是不可更新的,資料倉儲主要是為決策分析供資料,所涉及的操作主要是資料的查詢。
4.資料倉儲是隨時間而變化的,傳統的關係型資料庫系統比較適合處理格式化的資料,能夠較好的滿足商業商務處理的需求。穩定的資料以唯讀格式儲存,且不隨時間改變。
5.彙總的。操作性資料對映成決策可用的格式。
6.大容量。時間序列資料集合通常都非常大。
7.非規範化的。dw資料可以是而且經常是冗餘的。
8.元資料。將描述資料的資料儲存起來。
9.資料來源。資料來自內部的和外部的非整合作業系統。
數倉為什麼要分層建模???
隨著dt時代的到來,資料爆發性增長,如何將資料進行有序、結構化的分類組織和儲存是面臨的很大的乙個挑戰。多而雜的資料,會讓取數效率低下、口徑不
一、質量無保障等問題,所以數倉的建模主要解決以下幾個問題:
1.效能:良好的資料模型能幫助我們快速查詢所需要的資料,減少資料的i/o吞吐。
2.成本:良好的資料模型能極大地減少不必要的資料冗餘,也能實現計算結果的復用,極大地降低大資料系統中的儲存和計算成本。
3.效率:良好的資料模型能極大的改善使用者使用資料的體驗,提高使用資料的效率。
4.質量:良好的資料模型能改善資料統計口徑的不一致性,減少資料計算錯誤的可能性。
注:這四個方面在真正構思模型時還需考慮權衡,可能不能全都達到極致,需利弊對比,採用最合理的方案。
資料倉儲入門基礎 1 漫談數倉
資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。資料倉儲的特徵在於面向主...
數倉建模綜述
隨著大型關聯式資料庫商業軟體的興起,現代企業資訊系統幾乎都在使用關聯式資料庫來儲存 加工和處理資料。資料倉儲系統也不例外,大量的資料倉儲系統依託強大的關聯式資料庫能力儲存和處理資料,其採用的資料模型方法也是基於關聯式資料庫理論的。儘管 nosql也有 一定的發展,但是企業仍在大規模使用sql進行資料...
數倉建模的edw 數倉結構幾層,作用
資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。資料倉儲,並不是資料的最...