資料倉儲邏輯 物理結構及OLAP分析

2021-04-13 00:18:38 字數 3401 閱讀 6692

資料倉儲是儲存資料的一種組織形式,它從傳統資料庫中獲得原始資料,先按輔助決策的主題要求形成當前基本資料層,再按綜合決策的要求形成綜合資料層(又可分為輕度綜合層和高度綜合層)。隨著時間的推移,由時間控制機制將當前基本資料層轉為歷史資料層。可見資料倉儲中邏輯結構資料由3層到4層資料組成,它們均由元資料(meta data) 組織而成。資料倉儲中資料的物理儲存形式有多維資料庫組織形式(空間超立方體形式)和基於關聯式資料庫組織形式(由關係型事實表和維表組成)。

資料倉儲系統(dws)由資料倉儲、倉庫管理和分析工具三部分組成。

倉庫管理: 在確定資料倉儲資訊需求後,首先進行資料建模,然後確定從源資料到資料倉儲的資料抽取、清理和轉換過程,最後劃分維數及確定資料倉儲的物理儲存結構。元資料是資料倉儲的核心,它用於儲存資料模型和定義資料結構、轉換規劃、倉庫結構、控制資訊等。

資料倉儲: 包括對資料的安全、歸檔、備份、維護、恢復等工作,這些工作需要利用資料庫管理系統(dbms)的功能。

分析工具用於完成實際決策問題所需的各種查詢檢索工具、多維資料的olap分析工具、資料探勘dm工具等,以實現決策支援系統的各種要求。

資料倉儲應用是乙個典型的c/s結構。其客戶端的工作包括客戶互動、格式化查詢及結果和報表生成等。伺服器端完成各種輔助決策的sql查詢、複雜的計算和各類綜合功能等。現在,一種越來越普遍的形式是三層結構,即在客戶與伺服器之間增加乙個多維資料分析伺服器。olap伺服器能加強和規範決策支援的服務工作,集中和簡化原客戶端和dw伺服器的部分工作,降低系統資料傳輸量,因此工作效率更高。 

聯機分析處理(olap)

聯機分析處理 (olap) 的概念最早是由關聯式資料庫之父e.f.codd於2023年提出的,他同時提出了關於olap的12條準則。olap的提出引起了很大的反響,olap作為一類產品同聯機事務處理 (oltp) 明顯區分開來。

當今的資料處理大致可以分成兩大類:聯機事務處理oltp(on-line transaction processing)、聯機分析處理olap(on-line analytical processing)。oltp是傳統的關係型資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。olap是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。

oltp與olap之間的比較

olap是使分析人員、管理人員或執行人員能夠從多角度對資訊進行快速、一致、互動地訪問,從而獲得對資料的更深入了解的一類軟體技術。olap的目標是滿足決策支援或者滿足在多維環境下特定的查詢和報表需求,它的技術核心是"維"這個概念。

「維」是人們觀察客觀世界的角度,是一種高層次的型別劃分。「維」一般包含著層次關係,這種層次關係有時會相當複雜。通過把乙個實體的多項重要的屬性定義為多個維(dimension),使使用者能對不同維上的資料進行比較。因此olap也可以說是多維資料分析工具的集合。

olap的基本多維分析操作有鑽取(roll up和drill down)、切片(slice)和切塊(dice)、以及旋轉(pivot)、drill across、drill through等。

鑽取是改變維的層次,變換分析的粒度。它包括向上鑽取(roll up)和向下鑽取(drill down)。roll up是在某一維上將低層次的細節資料概括到高層次的彙總資料,或者減少維數;而drill down則相反,它從彙總資料深入到細節資料進行觀察或增加新維。

切片和切塊是在一部分維上選定值後,關心度量資料在剩餘維上的分布。如果剩餘的維只有兩個,則是切片;如果有三個,則是切塊。

旋轉是變換維的方向,即在**中重新安排維的放置(例如行列互換)。

olap有多種實現方法,根據儲存資料的方式不同可以分為rolap、molap、holap。

rolap表示基於關聯式資料庫的olap實現(relational olap)。以關聯式資料庫為核心,以關係型結構進行多維資料的表示和儲存。rolap將多維資料庫的多維結構劃分為兩類表:一類是事實表,用來儲存資料和維關鍵字;另一類是維表,即對每個維至少使用乙個表來存放維的層次、成員類別等維的描述資訊。維表和事實表通過主關鍵字和外關鍵字聯絡在一起,形成了"星型模式"。對於層次複雜的維,為避免冗餘資料占用過大的儲存空間,可以使用多個表來描述,這種星型模式的擴充套件稱為"雪花模式"。

molap表示基於多維資料組織的olap實現(multidimensional olap)。以多維資料組織方式為核心,也就是說,molap使用多維陣列儲存資料。多維資料在儲存中將形成"立方塊(cube)"的結構,在molap 中對"立方塊"的"旋轉"、"切塊"、"切片"是產生多維資料包表的主要技術。

holap表示基於混合資料組織的olap實現(hybrid olap)。如低層是關係型的,高層是多維矩陣型的。這種方式具有更好的靈活性。

還有其他的一些實現olap的方法,如提供乙個專用的sql server,對某些儲存模式(如星型、雪片型)提供對sql查詢的特殊支援。

olap 工具是針對特定問題的聯機資料訪問與分析。它通過多維的方式對資料進行分析、查詢和報表。維是人們觀察資料的特定角度。例如,乙個企業在考慮產品的銷售情況時,通常從時間、地區和產品的不同角度來深入觀察產品的銷售情況。這裡的時間、地區和產品就是維。而這些維的不同組合和所考察的度量指標構成的多維陣列則是olap分析的基礎,可形式化表示為(維1,維2,……,維n,度量指標),如(地區、時間、產品、銷售額)。多維分析是指對以多維形式組織起來的資料採取切片(slice)、切塊(dice)、鑽取(drill-down和roll-up)、旋轉(pivot)等各種分析動作,以求剖析資料,使使用者能從多個角度、多側面地觀察資料庫中的資料,從而深入理解包含在資料中的資訊。

根據綜合性資料的組織方式的不同,目前常見的olap主要有基於多維資料庫的molap及基於關聯式資料庫的rolap兩種。molap是以多維的方式組織和儲存資料,rolap則利用現有的關聯式資料庫技術來模擬多維資料。在資料倉儲應用中,olap應用一般是資料倉儲應用的前端工具,同時olap工具還可以同資料探勘工具、統計分析工具配合使用,增強決策分析功能。 

但是不管你使用什麼資料庫或者給你什麼樣的工具,建立資料倉儲的概念是一樣的。你需要設計並建立維表,事實表和元資料表。用的最多的是星型模式。總是要有乙個etl過程,而這總是很困難的。清空和轉換過程也必不可少,以保證資料質量。現在有如此多的etl工具來清空和建立資料倉儲,很難跟蹤它們。有如此多的軟體產品供選擇以建立各種不同的商務智慧型報告-網路分析報告,計畫報告,**報告,互動報告甚至dashboard reports。但是又能如何呢!現在我不再需要這些工具來建立乙個動態資料倉儲和報告了,就像12年前那樣。並且你也不需要!用你所擁有的開始已經足夠了

資料倉儲及OLAP分析

資料倉儲是儲存資料的一種組織形式,它從傳統資料庫中獲得原始資料,先按輔助決策的主題要求形成當前基本資料層,再按綜合決策的要求形成綜合資料層 又可分為輕度綜合層和高度綜合層 隨著時間的推移,由時間控制機制將當前基本資料層轉為歷史資料層。可見資料倉儲中邏輯結構資料由3層到 4層資料組成,它們均由元資料 ...

資料倉儲 OLAP

1.什麼是資料倉儲 資料倉儲是面向主題的 整合的 隨時間變化的 不容易丟失的資料集合,支援管理部門的決策過程 2.oltp和olap的區別 使用者和系統的面向性 顧客vs市場 資料內容 當前的 詳細的資料vs歷史的 彙總的資料 資料庫設計 實體 聯絡模型 er 和面向應用的資料庫設計vs星形 雪花型...

資料倉儲(十) OLAP技術

olap伺服器通常採用多維模型 inmon認為多維模型應當用在資料集市上,而資料倉儲應採用關係模型 kimball認為可以直接採用多維模型建立維度資料倉儲。二人均認可多維模型,只是應用場景不同 其具體實現可分為 rolap 關係型聯機分析處理 rolap基本資料和聚合資料均存放在rdbms之中。mo...