資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。
資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
資料倉儲研究和解決從資料庫中獲取資訊的問題。
資料倉儲的特徵在於面向主題、整合性、穩定性和時變性。
特點:1、 資料倉儲是面向主題的;操作型資料庫的資料組織面向事務處理任務,而資料倉儲中的資料是按照一定的主題域進行組織。主題是指使用者使用資料倉儲進行決策時所關心的重點方面,乙個主題通常與多個操作型資訊系統相關。
2、 資料倉儲是整合的,資料倉儲的資料有來自於分散的操作型資料,將所需資料從原來的資料中抽取出來,進行加工與整合,統一與綜合之後才能進入資料倉儲;
3、 資料倉儲中的資料是在對原有分散的資料庫資料抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源資料中的不一致性,以保證資料倉儲內的資訊是關於整個企業的一致的全域性資訊。
【資料倉儲的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一旦某個資料進入資料倉儲以後,一般情況下將被長期保留,也就是資料倉儲中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、重新整理。
資料倉儲中的資料通常包含歷史資訊,系統記錄了企業從過去某一時點
(如開始應用資料倉儲的時點
)到當前的各個階段的資訊,通過這些資訊,可以對企業的發展歷程和未來趨勢做出定量分析和**。
4、 資料倉儲是不可更新的,資料倉儲主要是為決策分析提供資料,所涉及的操作主要是資料的查詢;
5、 資料倉儲是隨時間而變化的,傳統的關係資料庫系統比較適合處理格式化的資料,能夠較好的滿足商業商務處理的需求。穩定的資料以唯讀格式儲存,且不隨時間改變。
6、 彙總的。操作性資料對映成決策可用的格式。
7、 大容量。時間序列資料集合通常都非常大。
8、 非規範化的。dw資料可以是而且經常是冗餘的。
9、 元資料。將描述資料的資料儲存起來。
10、 資料來源。資料來自內部的和外部的非整合作業系統。
資料倉儲,是在資料庫已經大量存在的情況下,為了進一步挖掘資料資源、為了決策需要而產生的,它並不是所謂的「大型資料庫」。資料倉儲的方案建設的目的,是為前端查詢和分析作為基礎,由於有較大的冗餘,所以需要的儲存也較大。為了更好地為前端應用服務,資料倉儲往往有如下幾點特點:
1、 效率足夠高。體現在查詢方面,能及時查詢到所需要的資料
2、 資料質量。避免由於資料來源有髒資料或者**不嚴謹而導致的資料失真。
3、 擴充套件性。必須考慮到未來3、5年甚至更多的擴充套件,主要體現在資料建模的合理性,資料倉儲方案中多出一些中間層,是海量資料流有足夠的緩衝,不至於資料量大很多,就執行不起來了。
4、 面向主題。面向事務處理任務,各個業務系統之間各自分離,資料倉儲裡的資料要按照一定的主題域進行組織。
資料倉儲中主要使用的技術:
並行:【計算的硬體環境、作業系統環境、
資料庫管理系統和所有相關的資料庫操作、查詢工具和技術、應用程式等各個領域都可以從並行的最新成就中獲益。】
分割槽:【分割槽功能使得支援大型表和索引更容易,同時也提高了資料管理和查詢效能。】
資料壓縮:【資料壓縮功能降低了資料倉儲環境中通常需要的用於儲存大量資料的磁碟系統的成本,新的資料壓縮技術也已經消除了壓縮資料對查詢效能造成的負面影響。】
主要案例:
農業、食品和化工集團agrofert採用 sap erp 應用程式作為其部分子公司的共享服務
disney最新的集中式erp系統是設計用來處理商品管理、存貨管理和相關業務過程的。但是disney 也希望平衡財務和業務智慧型(bi)報告和業務分析系統,這意味著建立乙個新的資料倉儲。disney在該專案中所使用的一些產品包括sas分析軟體和teradata資料倉儲技術。
資料倉儲具有改變業務的威力。它能幫助公司深入了解客戶行為,**銷售趨勢,確定某一組客戶或產品的收益率。
資料倉儲是乙個過程而不是乙個專案。
資料倉儲系統是乙個資訊提供平台,他從業務處理系統獲得資料,主要以星型模型和雪花模型進行資料組織,並為使用者提供各種手段從資料中獲取資訊和知識。
從功能結構劃分,資料倉儲系統至少應該包含資料獲取(data acquisition)、資料儲存(data storage)、資料訪問(data access)三個關鍵部分。
設計步驟
1)選擇合適的主題(所要解決問題的領域)
2)明確定義事實表
3)確定和確認維
4)選擇事實表
5)計算並儲存fact表中的衍生資料段
6)轉換維表
7)資料庫資料採集
8)根據需求重新整理維表
9)確定查詢優先順序和查詢模式。
硬體平台:資料倉儲的硬碟容量通常要是運算元據庫硬碟容量的2-3倍。通常大型機具有更可靠的效能和和穩定性,也容易與歷史遺留的系統結合在一起;而pc伺服器或unix伺服器更加靈活,容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬體平台時要考慮的問題:是否提供並行的i/o吞吐?對多cpu的支援能力如何?
資料倉儲dbms:他的儲存大資料量的能力、查詢的效能、和對並行處理的支援如何。
網路結構:資料倉儲的實施在那部分網路段上會產生大量的資料通訊,需不需要對網路結構進行改進。
建模劃分
資料倉儲的資料建模大致分為四個階段:
1.業務建模,這部分建模工作,主要包含以下幾個部分:
劃分整個單位的業務,一般按照業務部門的劃分,進行各個部分之間業務工作的界定,理清各業務部門之間的關係。
深入了解各個業務部門的內具體業務流程並將其程式化。
提出修改和改進業務部門工作流程的方法並程式化。
資料建模的範圍界定,整個資料倉儲專案的目標和階段劃分。
2.領域概念建模,這部分得建模工作,主要包含以下幾個部分:
抽取關鍵業務概念,並將之抽象化。
將業務概念分組,按照業務主線聚合類似的分組概念。
細化分組概念,理清分組概念內的業務流程並抽象化。
理清分組概念之間的關聯,形成完整的領域概念模型。
3.邏輯建模,這部分的建模工作,主要包含以下幾個部分:
業務概念實體化,並考慮其具體的屬性
事件實體化,並考慮其屬性內容
說明實體化,並考慮其屬性內容
4.物理建模,這部分得建模工作,主要包含以下幾個部分:
針對特定物理化平台,做出相應的技術調整
針對模型的效能考慮,對特定平台作出相應的調整
針對管理的需要,結合特定的平台,做出相應的調整
生成最後的執行指令碼,並完善之。
建立步驟
1)收集和分析業務需求
2)建立資料模型和資料倉儲的物理設計
3)定義資料源
4)選擇資料倉儲技術和平台
5)從操作型資料庫中抽取、淨化、和轉換資料到資料倉儲
6)選擇訪問和報表工具
7)選擇資料庫連線軟體
8)選擇資料分析和資料展示軟體
9)更新資料倉儲
資料轉換工具
1)資料轉換工具要能從各種不同的資料來源中讀取資料。
2)支援平面檔案、索引檔案、和legacydbms。
3)能以不同型別資料來源為輸入整合資料。
4)具有規範的資料訪問介面
5)最好具有從資料字典中讀取資料的能力
6)工具生成的**必須是在開發環境中可維護的
7)能只抽取滿足指定條件的資料,和源資料的指定部分
8)能在抽取中進行資料型別轉換和字符集轉換
9)能在抽取的過程中計算生成衍生字段
10)能讓資料倉儲管理系統自動呼叫以定期進行資料抽取工作,或能將結果生成平面檔案
11)必須對軟體**商的生命力和產品支援能力進行仔細評估
主要資料抽取工具**商:prismsolutions.carleton'spassport.informationbuildersinc.'s
eda/sql.sasinstituteinc.
關鍵問題
一般問題 (不完全是技術或文化,但很重要) 包括但不限於以下幾點:
業務使用者想要執行什麼樣的分析?
你現在收集的資料需要支援那些分析嗎?
資料在哪兒?
資料的清潔度如何?
相似的資料有多個資料來源嗎?
什麼樣的結構最適合核心資料倉儲 (例如維度或關係型)?
技術問題包括但不限於以下幾點:
在你的網路中要流通多少資料?它能處理嗎?
需要多少硬碟空間?
硬碟儲存需要多快?
你會使用固態還是虛擬化的儲存?
資料庫與資料倉儲的區別:
1、出發點不同:資料庫是面向事務的設計;資料倉儲是面向主題設計的。
3、設計規則不同:資料庫設計是盡量避免冗餘,一般採用符合正規化的規則來設計;資料倉儲在設計是有意引入冗餘,採用反正規化的方式來設計。
4、提供的功能不同:資料庫是為捕獲資料而設計,資料倉儲是為分析資料而設計,
5、基本元素不同:資料庫的基本元素是事實表,資料倉儲的基本元素是維度表。
6、容量不同:資料庫在基本容量上要比資料倉儲小的多。
7、服務物件不同:資料庫是為了高效的事務處理而設計的,服務物件為企業業務處理方面的工作人員;資料倉儲是為了分析資料進行決策而設計的,服務物件為企業高層決策人員。
資料倉儲概述
資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。資料倉儲 由資料倉儲之父...
資料倉儲概述
一 資料倉儲的特徵 資料倉儲就是乙個面向主題的 整合的 穩定的 隨時間變化二變化的資料集合。1 面向主題 主題是指使用者使用資料倉儲進行決策時所關心的重點領域,也就是在乙個較高的管理層次上對資訊系統的資料按照某一具體的管理物件進行綜合 歸納所形成的分析物件。2 繼承性 資料倉儲中儲存的資料一般從企業...
簡介 資料倉儲概述
資料倉儲是由資料倉儲之父比爾 恩門 bill inmon 提出,資料倉儲是乙個面向主題的 整合的 非易失的且隨時間變化的資料集合。主要用於組織積累的歷史資料,並使用分析方法 olap 資料分析 進行分析整理,進而輔助決策,為管理者 企業系統提供資料支援,構建商業智慧型。面向主題 資料倉儲是為資料分析...