在
w.h.inmon
所著"building the data warehouse"
一書中給出了資料倉儲的定義:
"資料倉儲是面向主題的、整合的、穩定的,並且時變的收集資料以支援管理決策的一種資料結構形式。",
說的通俗一點:資料倉儲技術也就是俗稱的分布式資料庫加上一種制約條件,而形成的新的資料儲存和處理方法。
而這個制約的規則正式本書討論的重點。
為什麼在有了這麼多資料庫產品之後,人們又要用資料倉儲技術。業界的各路諸侯又如此趨之若鶩。這正是
計算機技術應用需求的推動
。當年資料庫技術大發展的過程是伴隨著
oltp
(on line transaction process
聯機業務處理)應用需求的推動。
聯機業務處理最迫切的技術要求就是快速響應。
資料庫技術,特別是基於
e. f. codd
提出的關係理論的資料庫的技術,將資料集分成了甚少冗餘的實體(
entity
),然後又將它們按一定的關係(
relationship
)編織成乙個有機的整體,比較完美地滿足了
oltp
的應用需求。對於每個業務處理最好只須涉及乙個實體,業務處理對於實體的
add或
update
也只涉及資料**的可能最小的空間(如記錄級封鎖技術),對於其它實體的相關更新通過關係保持了一致性和完整性。這個切合當時
oltp
應用實際需求的理論和技術的成功,推動了關聯式資料庫產品風靡世界。呵呵,是不是看得不太明白,沒關係,多看幾遍就明白了,這個含義是指:將資料按目的、使用頻率分類儲存,不同的應用訪問不同的資料類,還不明白?你太笨了吧!
這是乙個典型的分布式資料庫設計圖:
操作型資料
應該注意到,資料倉儲並不是分布式系統,它是其中的一部分,但如果明白了資料倉儲在其中的地位,那麼也就知道了為什麼叫資料倉儲,而不叫分布式應用系統了。原因很簡單,資料倉儲是核心,其它的部分都要以它為圓心,最終的結果,便形成了乙個類似太陽系的結構。
操作型資料
是我們從各種各樣的資料來源中拿到的各種各樣的資料,這是整個系統資料的最原始的狀態,從中看到我11月11日打**的紀錄,也可以看到我在15日有什麼賬單,這個賬單的具體內容,甚至還可以看到飛機的起飛和到達時間,如果你明白了這裡面放了些什麼,那你也就應該能看懂下面的東西。
操作型資料的特點: 1.
實時性:資料幾乎都是當前值。 2.
資料來源極其豐富,各種來自企業外部和內部產生的資料。 3.
對反應時間的要求很高。(你總不能為了新增一條賬單記錄等上1個小時吧)
所以由此也可以看出,就算是讓我設計乙個操作型資料庫,也不是很難,:-) 提前說一句,操作型資料的設計遵循:需求
à體系結構
à完成**
à裝入資料。
資料倉儲
最大特點就是乙個「穩」字,先不說它是怎麼從操作型資料中提取資料的,單說一說他的資料更新週期最少24小時,你就應該明白;用它的資料是不可能做乙個實時性強的東西的,沒錯,它存在的目的不是讓你去做什麼有實時性的東西,它是為了讓你能夠利用從操作型資料庫提取的資料作分析和統計工作。知道了麼?這一點是很重要的。這也是每乙個作dss(以前稱之為mis)的分析員的追重要的工作,要不怎麼叫決策分析系統呢:p
想知道他的好處還是聽一聽專家的意見吧:
直接使用聯機業務處理系統中的資料進行決策支援資料的分析處理是會產生許多麻煩的,甚至是實現不了的。這時候,人們就會問為什麼系統中有我需要的資料,而我卻無法運用呢!這不是說關聯式資料庫不好,而是老產品遇到了新任務。
e-r型的資料結構能完美地執行聯機業務處理,但不適應較大規模的決策支援資料分析,尤其不適應企業級的決策支援資料分析處理的需要。適應這一需求,應運而生的就是資料倉儲技術。
資料倉儲的目標是為了制定管理的決策提供支援資訊,這顯著的與
oltp
(聯機事務處理)系統的快速響應需要不同。正象企業為了發展要進行業務重組一樣,為了支援管理決策需要也要按決策業務科目的要求重組
oltp
系統中的資料,並要按不同決策,分析內容分別組織使之方便使用。這種基於主題的模式從使用者角度來看就是多重的資料重組結構。
在把資料裝載到資料結構重組後的資料倉儲之前,先要進行資料轉換,或稱"整合
"處理。這一處理包括幾個必不可少的操作步驟,做到使資料完整、統一,這就確保了在使用資料倉儲時其中的資料是有質量保證的,對此後文有詳述。簡而言之,整合就是保證資料準確,到位,沒有超出應有的數值範圍,沒有重複等。
ok!聽明白了麼?有點複雜麼?不要緊,記住一點就行了:資料倉儲就是為了給統計分析等工作,專門設計的資料支援,就這麼簡單,總結一下:
資料倉儲:
1.資料無實時性,更新時間較長。
2.資料**是操作型資料,經過一定模式的抽取。
3.在處理的時候,對事件要求比較寬鬆。
它的設計可是相對複雜的,但可以肯定的是:資料倉儲是按照:資料
—〉需求。這也可以理解:巧婦難為無公尺之炊。你準備了一大堆蘿蔔可不也就只能作一道「蘿蔔開會」麼!所以,
dss設計的宗旨是:你把我需要的給我,我再告訴你我想要的。聽起來是不是挺彆扭的。:)
到目前為止,你應該已經對資料倉儲有了乙個全面而粗淺的認識了,呵呵,下一步就應該是仔細的鑽研一下偉大的
building the data warehouse
啦。馬磊
wednesday, november 29, 2000
資料倉儲篇
資料倉儲技術 資料倉儲 data warehouse 是為了滿足中高層管理人員 決策分析的需求,在傳統資料庫的基礎上產生了能夠滿足 決策分析需求的資料環境。一 資料倉儲與傳統資料庫的區別 面向事務處理的傳統資料庫系統不在適應新形式下的管理決策分析的需求,其中體現在 1 系統的響應問題 在分析過程中應...
資料倉儲(六) 資料倉儲的概念設計
在資料集市設計中可以使用3種基本的系統方法 資料驅動的方法 需求驅動的方法和混合方法。它們的區別在於源資料庫分析和終端使用者需求分析階段所佔的比重。方法的選擇將極大地影響概念設計的方式。資料驅動方法包括 基於實體 關係模式的設計 基於關係模式的設計 基於xml模式的設計。概念型實體 關係模式比關係型...
資料倉儲的概念
隨著市場競爭的加劇和資訊社會需求的發展,從大量資料中提取 檢索 查詢等 制定市場策略的資訊就顯得越來越重要了。這種需求既要求聯機服務,又涉及大量用 於決策的資料,而傳統的資料庫系統已無法滿足這種需求。其具體體現在三個方面 歷史資料量很大。輔助決策資訊涉及許多部門的資料,而不同系統的資料難以整合。由於...