資料倉儲原理 2 資料倉儲系統的體系結構

2022-05-08 13:24:08 字數 3565 閱讀 9366

## 1. 引言

`本篇主要講述資料倉儲系統的體系結構與組成要素、資料集市與資料倉儲之間的關係、元資料的定義與作用。`

> 「資料倉儲是乙個面向主題的、整合的、不可更新的、隨時間不斷變化的用來更好地支援企業或組織決策分析的資料集合。」

資料倉儲是區別於傳統操作型資料庫的資料集合,主要應用於分析型資料操作,支援企業全域性的決策分析。但是要實現這一應用目的,單一的資料倉儲是無法完成的,需要建立乙個資料倉儲系統。

基於資料倉儲系統,完成資料從操作型資料庫等資料來源到資料倉儲或者資料集市的流動、傳輸,以支援前台的決策分析處理工作。

乙個典型的資料倉儲系統的體系結構圖,如下所示。

簡單地說,資料從操作型資料庫、檔案、網路等資料來源,通過etl整合工具進行資料抽取、清洗、轉換、載入等工作,進入到資料倉儲和資料集市中,進而通過olap伺服器支援前台的多維分析、查詢報表、資料探勘等操作。

## 3. 組成要素

資料倉儲系統是由資料來源、整合工具、資料倉儲與資料倉儲伺服器、olap伺服器、元資料與元資料管理工具、資料集市和前台分析工具等組成。

**(1)資料來源:**

資料來源就是提供初始資料的地方,是資料倉儲系統的基礎。通常包括企業內部資料和外部資料。內部資料報括各種操作型資料庫中的資料以及文件資料,外部資料報括各類法律法規、市場資訊、競爭對手資訊以及各種統計資料和文件。

**(2)整合工具:**

即etl工具。etl是`extract-transform-load`的縮寫,包括資料抽取(`extracting`)、資料清洗(`cleaning`)、資料轉換(`transforming`)、資料載入(`loading`)等工作。具體地說:

- 資料抽取,就是從不同資料來源中選擇資料倉儲所需要的資料。這些資料可能具有的特點是:來自不同平台、不同結構、不同型別等。

- 資料清洗,由於資料來自於不同的資料來源,因此資料質量難以保證,比如存在資料不一致性、量綱不同、值缺失等情況,就需要對抽取到的資料進行清洗。

- 資料轉換,就是將面向應用的資料轉換成面向主題的資料。

補充:etl工作是bi/dw專案的核心靈魂,它按照統一的規則整合並提高資料的價值,是負責完成資料從資料來源向目標資料倉儲轉化的過程,是實施資料倉儲的重要步驟。如果說資料倉儲的模型設計是一座大廈的設計藍圖,資料是磚瓦的話,那麼etl就是建設大廈的過程。在整個專案中最難部分是使用者需求分析和模型設計,而etl規則設計和實施則是工作量最大的,約佔整個專案的60%~80%,這是國內外從眾多實踐中得到的普遍共識。

(3)資料倉儲伺服器:資料倉儲伺服器負責管理資料倉儲中的資料,為整個企業的資料分析提供乙個完整的、統一的檢視。

(4)olap伺服器:

使用olap伺服器對分析需要的資料按照多維資料模型進行再次重組,以支援使用者多角度、多層級的資料分析。

(5)資料集市:

資料集市是乙個小型的資料倉儲,通常具有較少的主題域,是部門級的資料倉儲,面向部門級的應用。

(6)前台分析工具:

包括各種資料分析工具,如報表工具、olap分析工具、資料探勘工具。各種分析工具既可以從資料倉儲中獲取資料,還可以從資料集市中獲取資料。

(7)元資料:

元資料就是整個資料倉儲的所有描述性資訊,即關於資料的資料。etl負責建立元資料。

總結:資料從資料來源到將最終的分析結果呈現給使用者,需要經歷以下幾個過程:

① 從各種資料來源中抽取合適的、需要的資料;

② 對資料進行清洗、加工、轉換、重構等預處理工作;

③ 建立高效、海量的企業資料倉儲(enterprise data warehouse,edw);

④ 針對特定的分析主題,建立專門的資料集市(data mart,dm);

⑤ 針對特定的業務需要,建立前端資料展現應用,或者開展專題分析專案。

## 4. 資料集市

**(1)資料集市的定義:**

資料集市就是面向部門或者應用的小型資料倉儲,相比企業級資料倉儲,具有較少的主題域。

**(2)資料集市的分類:**

按照資料的獲取方式,將資料集市分為從屬型資料集市和獨立型資料集市。

從屬型資料集市就是從**資料倉儲中獲取資料,這類資料集市之間是互連的。

獨立型資料集市就是直接從操作型資料庫等資料來源中獲取資料,這類資料集市之間沒有聯絡,是相互獨立的。

**(3)兩種建立資料集市的思想:**

兩種資料集市對應著兩種建立資料集市的思想,即「自頂向下」和「自底向上」的思想。

「自頂向下」就是先建立乙個**資料倉儲,然後按照各個特定部門的特定需求建立多個從屬型的資料集市。

「自底向上」就是先以最少的投資,根據部門的實際需要,建立多個獨立的資料集市,然後不斷擴充、不斷完善,最終形成乙個**資料倉儲。

**(4)資料集市的作用:**

資料集市一般包含著某一特定業務內容的資料,因此可以按照業務的分類來組織,當然也可以按照資料倉儲的主題、地理位置、企業部門來組織。這樣,資料集市就可以滿足企業、部門、個人不同層次、不同範圍的人員對資料的需求。

資料集市可以分布在不同的物理平台上,也可以邏輯分布在同一物理平台上。

**(5)資料集市與資料倉儲的區別:**

資料集市是按照部門或者業務分類進行組織的小型資料倉儲,而資料倉儲則是面向整個企業的。二者的不同,一是主題域的不同,二是資料規模的不同,三是訪問效率的不同。

(1)元資料的定義:

元資料就是關於資料的資料。關係型資料庫中的「資料字典」就是元資料的一種。

(2)元資料的作用:

元資料描述資料的結構、**、抽取和轉換規則、儲存,描述操縱資料的程序和應用程式的結構、功能等。其主要目的就是提供資料資源的全面指南,使資料倉儲管理員和開發人員能夠清楚的了解到資料存放在**、有什麼資料、**於**、如何使用和管理這些資料。

(3)元資料的分類:

按照使用元資料的使用者分類,可以分為技術元資料和業務元資料。技術元資料描述資料的技術細節,主要提供給開發人員和管理人員;業務元資料主要是讓業務人員能夠明白資料倉儲中的資料。

按照**的正式程度分類,分為正式元資料和非正式元資料,前者是經過討論並由決策者確定的元資料,後者是一些規範、制度、常識組成,沒有標準的形式。

按照功能分類,分為資料來源元資料、etl元資料、ods元資料、dw元資料、報表元資料、介面資料檔案格式元資料、商業元資料。

[1] 資料倉儲(原書第4版),william h.inmon著,王志海等譯,機械工業出版社,2006.8

[2] 資料倉儲與資料分析教程,王珊等編著,高等教育出版社,2012.8

[3] 博文:系統設計與架構筆記:etl工具開發和設計的建議

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲,什麼是資料倉儲?

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...

資料倉儲和資料倉儲分層

資料倉儲 data warehouse 可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。1 問題簡單化,將乙個複雜的問題分...