資料倉儲技術
資料倉儲(
data warehouse
)是為了滿足中高層管理人員**,決策分析的需求,在傳統資料庫的基礎上產生了能夠滿足**,決策分析需求的資料環境。
一.
資料倉儲與傳統資料庫的區別
面向事務處理的傳統資料庫系統不在適應新形式下的管理決策分析的需求,其中體現在: 1.
系統的響應問題
在分析過程中應用程式需要處理時間過長,消耗大量的系統資源 2.
資料整合問題
需要面對大量全面,正確的整合資料 3.
資料的動態整合和更新
資料的整合涉及企業外部資料和非結構化的資料的整合使用 4.
歷史資料問題
供決策參考的一般的是歷史資料 5.
決策操作問題
資料倉儲和傳統的資料庫的比較主要體現在下面幾個方面:
比較專案
傳統資料庫
資料倉儲
資料內容
當前值
歷史的,歸檔的,歸納的,計算的資料(處理過的)
資料目標
面向業務操作程式,重複操作
面向主體域,分析應用
資料特性
動態變化,更新
靜態,不能直接更新,只能定時新增,更新
資料結構
高度結構化,複雜,適合操作計算
簡單,適合分析
使用頻率 高
低
資料訪問量
每個事務一般只訪問少量記錄
每個事務一般訪問大量記錄
對響應時間的要求
計時單位小,如秒
計時單位相對較的,除了秒,還有分鐘,小時
二.
資料倉儲的概念
資料倉儲(
data warehouse
)是乙個面向主題的(
subject oriented
),整合的(
integrate
),非易失的(
non-volatile
),且隨時間變化的(
time variant
)的資料集合,用於支援管理決策。
1. 維
管理決策需要從多個角度,多個層面分析,涉及和影響到決策的各個重要因素,這些決策分析的角度或決策分析的出發點就構成了資料倉儲中維的概念。
其中還有兩個概念:上捲和下鑽
上捲是指在資料倉儲應用中,從較低層次的資料開始逐步將資料按照層次進行概括處理。
下鑽是指從資料倉儲中的高層資料開始逐步走向底層資料,探索,了解概括性資料的具體細節。 2.
資料立方體
資料倉儲中多維的交點就是資料倉儲使用者要觀察的事務。立方體作為基本事務的集合,是一種適合通過
sql或其他介面進行查詢的完整的資料結構。
資料倉儲中的立方體也稱為多維立方體,資料立方體的維數超過
3時,就稱為超立方體或超維數聚集。 3.
聚類
聚類(聚合)是指收集了基本事務資料的結構。將不同層次的資料通過聚集,形成了基於維的對管理人員有決策分析意義的一些資料交集。
三.
資料倉儲的結構
從資料倉儲的概念結構看,一般說來,資料倉儲系統要包括資料來源,資料準備區,資料倉儲資料庫,資料集市
/知識挖掘庫以及各種管理工具和應用工具。資料倉儲建立之後,首先要從資料來源中抽取相關的資料到資料準備區,在資料準備區中經過淨化處理後再載入到資料倉儲資料庫,最後根據擁護的需求將資料匯入資料集市和知識挖掘庫中。當使用者使用資料倉儲時,可以利用包括
olap
(聯機分析處理
on-line analytical processing
)在內的多種資料倉儲應用工具向資料集市
/知識挖掘庫或資料倉儲進行決策查詢分析或知識挖掘。資料倉儲的建立,應用可以利用各種資料倉儲管理工具輔助完成。
基本分層為: 1.
資料倉儲的基本功能層
1.1
資料來源是指儲存在資料倉儲中的資料**,結構上應該包含業務資料,歷史資料,辦公資料,
web資料,外部資料以及資料來源資料。
1.2
資料準備區的功能結構由資料標準化處理,資料過濾和匹配,資料淨化和處理,表明資料的時間戳,確認資料質量以及元資料抽取和建立等操作組成。
1.3
資料倉儲的功能結構由資料重整,資料倉儲建立和元資料管理組成。其中資料重整包括:整合與分解,概括與聚集,預算與推導,翻譯與格式化,轉換與映像;資料倉儲建立包括:建模,概括,聚集,調整與確認,建立結構化查詢;元資料的管理包括:元資料遊覽與導航,元資料建立,建立詞彙表。
1.4
資料集市
/知識挖掘的功能結構與資料倉儲的功能結構相似,區別在於資料集市的設立目的是為了某個部門,某個領域使用者提供服務,而資料倉儲的目的在於為全體使用者提供服務。
1.5
資料倉儲的資料訪問與使用結構分為資料倉儲訪問與檢索,資料倉儲分析與報告兩部分。其中資料倉儲訪問與檢索包括:資料倉儲的直接訪問,資料集市訪問,資料集市重整,轉換為多維結構,建立區域性儲存;資料倉儲分析與報告包括:報表工具,分析工具,分析建模工具,資料探勘工具,新產品應用程式。
在這個過程中,元資料的管理一直同步進行(元資料管理與報表,元資料的抽取與建立) 2.
資料倉儲的管理層
資料倉儲的管理包括:資料管理和資料倉儲的元資料管理
2.1
資料管理包含資料抽取,新資料需求與查詢管理;資料載入,儲存,重新整理和更新系統;安全性與使用者授權管理系統以及資料歸檔,恢復及淨化四個部分
2.2
資料倉儲的元資料管理包括:資料倉儲,資料集市和詞彙表管理;元資料抽取,建立,儲存和更新管理;預定義的查詢和報表以及索引管理;重新整理與複製管理;登入,歸檔,恢復,淨化管理。 3.
資料倉儲的環境支援層
資料倉儲的環境支援層由資料倉儲資料傳輸層和資料倉儲基礎層組成
3.1
資料倉儲資料傳輸層包含資料傳輸和傳送網路,客戶
/伺服器**和中介軟體,複製系統,安全和保障系統
3.2
資料倉儲的基礎層包含系統管理,工作流程管理,儲存管理,處理系統
資料倉儲的體系結構主要有:大眾觀點的資料倉儲體系結構,帶
ods(
operational data store
)的資料倉儲體系結構,聯合型資料倉儲
/資料集市體系結構,閉環的聯合型
bi體系結構
四.
資料倉儲的設計與開發
1. 資料倉儲的設計
資料倉儲的設計主要需要考慮以下幾個方面
1.1
etl
(extract/transformation/load)
使用者從資料來源抽取出所需的資料,經過資料清洗,轉換,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中去。
1.2
元資料
關於資料的資料,指在資料倉儲建設過程中所產生的有關資料來源定義,目標定義,轉換規則等相關的關鍵資料。同時元資料還包含關於資料含義的商業資訊。
1.3
粒度
資料倉儲的資料單位中儲存資料的細化或綜合程度的級別。
1.4
分割
結構相同的資料被分成多個資料物理單元。
1.5
data mart
(資料集市)
小型的面向部門或工作組級資料倉儲。
1.6
operation data store
(運算元據儲存)
1.7
data model
(資料模型)
該模型有邏輯資料結構,包括有
dbms
為有效進行資料庫處理提供的操作和約束;用於表示資料的系統(如
erd或關係型模型)。
1.8
artifact
(人工關係) 在
dss環境中用於表示參照完整性的一種設計技術。 2.
資料倉儲的開發
資料倉儲的開發需要按照軟體工程的開發思想進行,具體分為以下步驟:
2.1
業務需求分析
2.2
邏輯模型設計
2.3
物理模型設計
2.4
資料抽取,清洗,整合,裝載
2.5
資料倉儲的管
2.6
資料的分析,報表,查詢
2.7
資料倉儲效能優化及發布
五.
資料倉儲的技術
資料倉儲的主要技術包含資料管理技術,資料儲存技術和資料倉儲接**術 1.
資料管理技術
資料管理技術包含以下幾點:
1.1
大批量資料管理
1.2
資料倉儲的高效率索引與資料監視技術
1.3
元資料管理技術
1.4
資料壓縮技術
1.5
復合鍵碼技術 2.
資料儲存技術
2.1
多介質儲存裝置和管理技術
2.2
資料儲存的控制
2.3
資料的並行儲存與管理
2.4
可變長技術
2.5
鎖切換技術 3.
資料倉儲接**術
3.1
多接**術
3.2
語言的介面
3.3
資料的高效率載入
資料倉儲之我見 概念篇)
在 w.h.inmon 所著 building the data warehouse 一書中給出了資料倉儲的定義 資料倉儲是面向主題的 整合的 穩定的,並且時變的收集資料以支援管理決策的一種資料結構形式。說的通俗一點 資料倉儲技術也就是俗稱的分布式資料庫加上一種制約條件,而形成的新的資料儲存和處理方...
資料倉儲之人物篇
資料倉儲領域,在業界有幾位公認大牛。資料倉儲之父,開山鼻祖,著書立說,培訓演講,出版了許多書。我在這裡推薦building the data warehouse這本書,第四版出版於2005。他推崇使用corporate information factory cif 的資料建模方法 使用正規化模型構...
資料倉儲 資料倉儲部署
1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...