事實上,將大量的業務資料應用於分析和統計原本是乙個非常簡單和自然的想法。但在實際的操作中,人們卻發現要獲得有用的資訊並非如想象的那麼容易,這主要表現在以下幾點:
· 所有聯機事務處理強調的是密集的資料更新處理效能和系統的可靠性,並不關心資料查詢的方便與快捷。聯機分析和事務處理對系統的要求不同,同乙個資料庫在理論上都難以做到兩全。
· 業務資料往往存放於分散的異構環境中,不易統一查詢訪問,而且還有大量的歷史資料處於離線狀態,形同虛設。
· 業務資料的模式針對事務處理系統而設計,資料的格式和描述方式並不適合非計算機專業人員進行業務上的分析和查詢。
因此有人感嘆:20年前查詢不到資料是因為資料太少了,而今天查詢不到資料是因為資料太多了。針對這一問題,人們設想專門為業務的統計分析建立乙個資料中心,它的資料從聯機的事務處理系統中來、從異構的外部資料來源來、從離線的歷史業務資料中來…… 。這個資料中心是乙個聯機的系統,它是專門為分析統計和決策支援應用服務的,通過它可以滿足決策支援和聯機分析應用所要求的一切。這個資料中心就叫做資料倉儲。這個概念在90年代初被提出來。如果需要給資料倉儲乙個定義的話,那麼資料倉儲就是乙個作為決策支援系統和聯機分析應用資料來源的結構化資料環境。資料倉儲所要研究和解決的問題就是從資料庫中獲取資訊的問題。
那麼資料倉儲與資料庫(主要指關聯式資料庫)又是什麼關係呢?回想當初,人們固守封閉式系統是出於對事務處理的偏愛,人們選擇關聯式資料庫是為了方便地獲得資訊。我們只要翻開c.j.date博士的經典之作《an introduction to database systems》便會發現:今天資料倉儲所要提供的正是當年關聯式資料庫所要倡導的。然而,由於關係資料庫系統在聯機事務處理應用中獲得的巨大成功,使得人們已不知不覺將它劃歸為事務處理的範疇;過多地關注於事務處理能力的提高,使得關聯式資料庫在面對聯機分析應用時又遇到了新的問題--今天的資料倉儲對關聯式資料庫的聯機分析能力提出了更高的要求,採用普通關係型資料庫作為資料倉儲在功能和效能上都是不夠的,它們必須有專門的改進。因此,資料倉儲與資料庫的區別不僅僅表現在應用的方法和目的方面,同時也涉及到產品和配置上的不同。
以辨證的眼光看,資料倉儲的興起實際是資料管理的一種回歸,是螺旋式的上公升。今天的資料庫就好比當年的層次資料庫和網狀資料庫,它們面向事務處理;今天的資料倉儲就好比是當年的關聯式資料庫,它針對聯機分析。所不同的是,今天的資料倉儲不必再為聯機事務處理的特性而無謂奔忙,由於技術的專業化,它可更專心於聯機分析領域的發展和探索。
資料倉儲的概念一經出現,就首先被用於金融、電信、保險等主要傳統資料處理密集型行業。國外許多大型的資料倉儲在1996-2023年建立。那麼,什麼樣的行業最需要和可能建立資料倉儲呢?有兩個基本條件:第一,該行業有較為成熟的聯機事務處理系統,它為資料倉儲提供客觀條件;第二,該行業面臨市場競爭的壓力,它為資料倉儲的建立提供外在的動力。
資料倉儲技術簡介1 上
資料倉儲是近年來興起的一種新的資料庫應用。在各大資料庫廠商紛紛宣布產品支援資料倉儲並提出一整套用以建立和使用資料倉儲的產品是,業界掀起了資料庫熱。比如informixgongside公司的資料倉儲解決方案 oracle公司的資料倉儲解決方案 sybase公司的互動式資料倉儲解決方案等等。這同時也引起...
資料倉儲技術簡介2 下
資料倉儲的第三個問題是針對決策支援查詢的優化。這個問題主要針對關聯式資料庫而言,因為其它資料管理環境連基本的通用查詢能力都還不完善。在技術上,針對決策支援的優化涉及資料庫系統的索引機制 查詢優化器 連線策略 資料排序和取樣等諸多部分。普通關聯式資料庫採用b樹類的索引,對於性別 年齡 地區等具有大量重...
資料倉儲簡介
資料倉儲領域的權威w h inmon給出了資料倉儲的乙個簡短而全面的定義 資料倉儲是乙個面向主題 整合 時變 非易失的資料集合,是支援管理部門的決策過程。根據該定義,資料倉儲具備以下四個關鍵特徵 1.1 面向主題 subject oriented 的資料集合 資料倉儲通常圍繞一些主題,如 產品 銷售...