資料倉儲理論

2021-10-09 15:25:30 字數 2170 閱讀 6382

資料倉儲的概念原先為「商業資料倉儲」。本質上,資料倉儲是一種從操作性系統到決策支援環境的資料流架構模型,而數倉概念也是為了解決和這個資料流相關的各種問題,主要是解決多重資料複製帶來的高成本問題。在沒有資料倉儲的時代,需要大量的冗餘資料來支撐多個決策支援環境。

inmon將資料倉儲描述為乙個面向主題的、整合的、隨時間變化的、非易失的資料集合,用於支援管理者的決策過程。

傳統的操作型系統是圍繞組織的功能性應用進行組織的,而資料倉儲是面向主題的。主題是乙個抽象概念,簡單的說就是與業務相關的資料類別,每乙個主題基本對應乙個巨集觀的分析領域。資料倉儲被設計成輔助人們分析資料。例如,乙個公司要分析銷售資料,就可以建立乙個專注於銷售的資料倉儲,使用這個資料倉儲,就可以回答類似於「去年誰是我們這款產品的最佳使用者」這樣的問題。這個場景下的銷售,就是乙個資料主題,而這種通過劃分主題定義資料倉儲的能力,就使得資料倉儲是面向主題的。主題域是對某個主題進行分析後確定的主題的邊界,如客戶、銷售、產品都是主題域的例子。

為特定資料分析領域提供的資料與傳統資料庫中的資料是有不同的。傳統資料庫中的資料是原始的、基礎的資料,而特定分析領域資料則是需要對它們作必要的抽取、加工與總結而形成。

資料倉儲是面向分析、決策人員的主管要求的,不同的使用者有不同的要求,同乙個使用者的要求也會隨時間而經常變化,因此,資料倉儲中的主題有時會因使用者主觀要求的變化而變化的。

例:乙個面向事務處理的「商場」資料庫系統,其資料模式如下:

採購子系統:

訂單(訂單號,**商,總金額,日期)

訂單細則(訂單號,商品號,類別,單價,數量)

**商(**商號,**商名,位址,**)

銷售子系統:

顧客(顧客號,姓名,性別,年齡,文化程度,位址,**)

銷售(員工號,顧客號,商品號,數量,單價,日期)

庫存管理子系統:

領料單(領料單號,領料人,商品號,數量,日期)

進料單(進料單號,訂單號,進料人,收料人,日期)

庫存(商品號,庫房號,庫存量,日期)

庫房(庫房號,倉庫管理員,地點,庫存商品描述)

人事管理子系統:

員工(員工號,姓名,性別,年齡,文化程度,部門號)

部門(部門號,部門名稱,部門主管,**)

上述資料模式基本上是按照企業內部的業務活動及其需要的相關資料來組織資料的儲存的,沒有實現真正的資料與應用分離,其抽象程度也不夠高。

如果按照面向主題的方式進行資料組織,首先應該抽取主題,即按照管理人員的分析要求來確定主題,而與每個主題相關的資料又與有關的事務處理所需的資料不盡相同。

主題一:商品

商品固有資訊:商品號,商品名,類別,顏色等

商品採購資訊:商品號,**商號,**價,**日期,**量等

商品銷售資訊:商品號,顧客號,售價,銷售日期,銷售量等

商品庫存資訊:商品號,庫房號,庫存量,日期等

主題二:**商

**商固有資訊:**商號,**商名,位址,**等

**商品資訊:**商號,商品號,**價,公映日期,**量等

主題三:顧客

顧客固有資訊:顧客號,顧客名,性別,年齡,文化程度,住址,**等

顧客購物資訊:顧客號,商品號,售價,購買日期,購買量等

在每個主題中,都包含了有關該主題的所有資訊,同時又拋棄了與分析處理無關或不需要的資料,從而將原本分散在各個系統中的有關資訊集中在乙個主題中,形成有關該主題的乙個完整一致的描述。面向主題的資料組織方式所強調的就是要形成乙個這樣一致的資訊集合。

不同的主題的之間也有重疊的內容,但這種重疊是邏輯上的,而不是物理儲存上的儲存,是部分細節的重疊,而不是完全的重疊。

整合性是指資料倉儲中資料必須是一致的。資料倉儲的資料是從原有的分散的多個資料庫、資料檔案和資料段中抽取來的,資料**可能既有內部資料又有外部資料。

資料倉儲中的資料是為分析服務的,而分析需要多種廣泛的不同資料來源以便進行比較、鑑別,因此資料倉儲中的資料必須從多個資料來源中獲取,這些資料來源包括多種型別資料庫、檔案系統以及internet網上資料等,它們通過資料整合而形成資料倉儲中的資料。假設財務系統中對於性別使用f/m,而oa系統對性別使用a/b,這就是資料不一致,如果想搭建企業級的資料倉儲,需要資料具有一致性

整合的方法

1、統一:消除不一致的現象

2、綜合:對原有資料進行綜合和計算

需要考慮的問題:

1、資料格式

2、計量單位

3、資料**含義混亂

4、資料名稱混亂

資料倉儲分層理論

cif 層次架構 資訊工廠 通過分層將不同的建模方案引入到不同的層次中,cif 將資料倉儲分為四層,如下圖所示 ods operational data store 運算元據儲存層,往往是業務資料庫 的一對一對映,將業務資料庫中的 在 ods重新建立,資料完全一致。dwd data warehous...

資料倉儲的理論01

維度建模是以分析決策的需求出發構建模型 為分析需求服務,解決了使用者如何快速完成分析需求 分析型資料庫 資料集市 資料倉儲的建模方法 面向分析,以查詢為主,不涉及資料更新操作 事實表設計的概念 能夠正確的記錄歷史資訊為準則 維度表 設計 合適的角度聚合主題的內容為準則 維度建模的方式有哪些 星形模式...

基於大資料的資料倉儲 資料倉儲建模基本理論

一 數倉建模的目標 訪問效能 能夠快速查詢所需的資料,減少資料i o。資料成本 減少不必要的資料冗餘,實現計算結果資料復用,降低大資料系統中的儲存成本和計算成本。使用效率 改善使用者應用體驗,提高使用資料的效率。資料質量 改善資料統計口徑的不一致性,減少資料計算錯誤的可能性,提供高質量的 一致的資料...