資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧型的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。資料倉儲的特徵在於面向主題、整合性、穩定性和時變性。我所經歷的大資料平台發展史(一):非網際網路時代 • 上篇
我所經歷的大資料平台發展史(二):非網際網路時代 • 下篇
我所經歷的大資料平台發展史(三):網際網路時代• 上篇
我所經歷的大資料平台發展史(四):網際網路時代• 下篇
網際網路數倉的發展比較有代表性的就是阿里爸爸了,以下是《阿里大資料之路》中的資料體系架構圖。
從上面的阿里體系架構圖中可以看出,數倉建模的主要工作在資料計算層,經過計算和整合後的資料才有價值,這個是數倉工作中的主要部分。對資料進行有序和有結構地分類組織和儲存,避免重複建設和資料不一致性,保證資料的規範性,讓資料發揮它的價值。
數倉的存在性:
1.相比操作型系統儲存資料,dw使用資料,操作型系統反映最新資料狀態,dw需收集海量歷史資料進行分析;
2.dw可以讓業務人員方便的獲得資料,有很強的資料服務能力;
3.dw統一口徑,以一致的形式展現資訊,避免出現指標正確性的爭論;
4.dw有良好的擴充套件性,業務發生變化,需要與歷史資料進行完美融合;
5.dw是提高決策制定能力的權威和可信的基礎,資料質量是生命線,有質量的資料才有說服力
數倉的特性:
1.面向主題的,按照一定的主題進行組織,主題是指使用者使用資料倉儲進行決策時所關心的重點方面,後面會重點舉例說明。
2.資料倉儲是整合的,資料倉儲的資料有來自於分散的操作型資料,將所需資料從原來的資料中抽取出來,進行加工和整合之後,進入資料倉儲。
3.資料倉儲是不可更新的,資料倉儲主要是為決策分析供資料,所涉及的操作主要是資料的查詢。
4.資料倉儲是隨時間而變化的,傳統的關係型資料庫系統比較適合處理格式化的資料,能夠較好的滿足商業商務處理的需求。穩定的資料以唯讀格式儲存,且不隨時間改變。
5.彙總的。操作性資料對映成決策可用的格式。
6.大容量。時間序列資料集合通常都非常大。
7.非規範化的。dw資料可以是而且經常是冗餘的。
8.元資料。將描述資料的資料儲存起來。
9.資料來源。資料來自內部的和外部的非整合作業系統。
數倉為什麼要分層建模???
隨著dt時代的到來,資料爆發性增長,如何將資料進行有序、結構化的分類組織和儲存是面臨的很大的乙個挑戰。多而雜的資料,會讓取數效率低下、口徑不
一、質量無保障等問題,所以數倉的建模主要解決以下幾個問題:
1.效能:良好的資料模型能幫助我們快速查詢所需要的資料,減少資料的i/o吞吐。
2.成本:良好的資料模型能極大地減少不必要的資料冗餘,也能實現計算結果的復用,極大地降低大資料系統中的儲存和計算成本。
3.效率:良好的資料模型能極大的改善使用者使用資料的體驗,提高使用資料的效率。
4.質量:良好的資料模型能改善資料統計口徑的不一致性,減少資料計算錯誤的可能性。
四個方面在真正構思模型時還需考慮權衡,可能不能全都達到極致,需利弊對比,採用最合理的方案。 數倉過程建模 數倉入門基礎 1 漫談數倉
資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。資料倉儲的特徵在於面向主...
資料倉儲1 數倉的意義
在進行資料分析的時候,我們總會遇到一些名詞,比如資料倉儲。資料倉儲是資料分析中乙個比較重要的東西,資料倉儲是乙個面向主題的 整合的 相對穩定的 反應歷史變化的資料集合。下面就說一下資料分析中的資料倉儲。對資料分析的理解大家應該都是比較熟悉的,資料分析的流程有很多,首先需要進行對業務的理解,然後就是對...
資料倉儲 數倉分層 01
資料倉儲,資料倉儲是面向主題的 subject oriented 整合的 integrated 非易失的 non volatile 和時變的 time variant 資料集合,用以支援管理決策。每個資料倉儲面向分析的主題都是一樣的 資料倉儲需要分析某乙個主題的資料結果,需要整合各個其他方面的資料 ...