1)
收集和分析業務需求
使用者需求,管理人員需求。
2)建立資料模型和資料倉儲的物理設計
概念模型,邏輯模型,物理模型
3)定義資料源
資料來源面向應用,不是面向主題,而且資料來源之間存在多個不一致的情況,所以必須在已有的系統中定義記錄系統(內容正確,在多個資料來源間起決定作用的操作型資料來源)
4)選擇資料倉儲技術和平台
5)從操作型資料庫中抽取,清洗及轉換資料到資料倉儲。
6)選擇訪問和報表工具,選擇資料庫連線軟體,選擇資料分析和資料展示軟體。
7)更新資料倉儲。
1)自頂向下
把oltp
資料通過
etl匯集到資料倉儲中,然後在複製到資料集市中
2)自底向上
把oltp
資料構建到資料集市中,然後通過複製的方式提公升到資料倉儲中。這種模式構建資料集市的工作相對簡單,易成功。這種模式也是實現快速資料傳送的原型。
公司的概況,公司主營業務,主要產品,多少工人。
分析幾個主業務,主題業務流程:原材料採購、生產和銷售環節等主要流程。
對資料來源結構的分析與理解:表設計為幾個模組、主要業務表、靜態表。分為:個人客戶關係,產品資料,原材料資料。
採用資料加使用者需求的方式。
1)從上層行政**可以得到許多驚奇的有關業務操作及其希望從該組織得到的內容。以及資料倉儲專案或有關業務的行政職員。有些共性的問題:
成績怎樣得來,怎樣確定成敗。
分析過程的時間
資訊分發的形式
怎樣彌補資訊的空缺
分析資料需要哪一級的詳細程度
業務目標
當前資訊源和日常報表需求
主題域
2)使用者需求調研的分析
度量指標
維度五個組成部分:名稱,度量,維度,層次,類別。
確定主題和元資料。
建模:超立方體及資訊包圖發。
超立方體步驟:
1)要抓住的業務過程
2)要捕獲的度量值
3)確定資料的粒度
無直觀,且不能超出三維。
資訊寶圖法:用二維表反映多維特性,並提供了視覺化表示。
三重要物件:度量(指標),維度,類別。
eg:1)獲取各個業務部門對業務員資料的多維特性的分析結果,各個部門對銷售額主題,它的維度包含:時間,區域,產品和客戶。
2)對每個維度進行分析,確定維度與類別之間的傳遞和對映關係,如:時間維有年,季,月和日等級別。而區域分為國家,省州,城市
3)確定使用者需要的度量指標體系,這裡以銷售情況作為事實依據確定的銷售的相關指標包括實際銷售額,計畫銷售額和計畫完成率。
有了以上的分析,就可以畫出銷售分析的資訊包圖,以銷售分析為主題,歸納事實和指標,歸納維度和層次,確定資料的粒度和類別。
維度—>
資訊包圖法:銷售分析 類別
| v時間維
區域維產品維
客戶維廣告維
年度(5)
國家(10)
產品類別(
500)
年齡分組(7)
廣告費分組(5)
季度(20)
省州(100)
產品名稱(
9000)
收入分組(8)
月(60)
城市(500)
信用組(2)
日(1800)
銷售點(
8000)
度量指標:實際銷售額,計畫銷售額,計畫完成率
設計概念模型:
資訊包圖法確定了資料倉儲的主題和大部分元資料。
主題:就是在較高的層次上將業務資料進行綜合,歸類和分析利用的乙個抽象概念。每個主題對應乙個分析領域,如前面的銷售分析
就是乙個分析領域,也稱為乙個應用的主題。
主題是根據分析需求確定的。如在乙個生產企業中,對於材料的**,在
oltp
中我們關心的是怎樣更方便和更快捷地進行材料**的業務處理。而在分析處理時,我們更關心材料的不同採購渠道和材料**是否及時,材料質量狀況等。
主題域:主題的邊界:如前面:**商,商品,客戶和倉庫等主圖。
五個邏輯實體:詳細資訊邏輯實體,度量邏輯實體,維度邏輯實體,層次邏輯實體,類別邏輯實體。
其中度量指標實體,維度邏輯實體,類別邏輯實體分別對應資訊包圖中的三個主要部分。
建立星形圖
對應建立的例項為:
確定主題的屬性組例:
主題名公共建
屬性組 商品
商品號基本資訊:商品號、商品名、型別和顏色等
採購資訊:商品號、應商號、**價、**日期、**量
庫存資訊:商品號、庫房號、庫存量、日期 銷售
銷售單號
基本資訊:銷售單號、銷售位址等
銷售資訊:酷虎好、商品號、銷售價、銷售量、銷售時間 客戶
客戶號基本資訊:客戶號、客戶名、性別、年齡、文化程度、住址、**
經濟資訊:客戶號、年收入、和家庭總收入
事實表及其特徵
度量是客戶發生事件或動作的事實記錄,相當於業務表
特徵:記錄資料很多,因此事實表應當儘量減少一條記錄的長度,避免事實表過大。
事實表中除了度量變數外,其它欄位都是維表或者是中間表的關鍵字(外來鍵)
事實表的維度很多,則事實表的字段數也會很多。
邏輯模型示例:
對應地理位置邏輯模型
對應銷售員維邏輯模型
五類表:事實表,詳細資訊表,維表,層次表,類別表。
需要考慮的因素有
i/o訪問時間,空間利用率,維護成本。
主要工作:
1)定義資料標準,規範化資料倉儲中的資料。
2)選擇資料庫架構(關聯式資料庫的星形模式、多維資料庫的
cube
)及具體的資料庫管理系統和版本。
3)根據具體使用的資料庫管理系統,將實體和實體特徵物理化,具體包括如下內容:
字段設計
物理記錄設計
反響規範化
分割槽
4)資料容量和使用頻率分析,以定義規模,確定資料容量、響應時間要求和更新頻率等
5)物理檔案的設計。指標、檔案組織、和簇檔案
6)索引的使用與選擇
7)raid
物理儲存結構設計原則
1)不要把經常連線的幾張表放在同乙個儲存裝置上,這樣可以利用儲存裝置的並行操作功能加快資料的查詢速度。
2)建議把整個組織共享的細節資料放在乙個集中式伺服器上,以提高這些共享資料的訪問性。
3)建議把資料庫表和索引分放在不同的物理儲存裝置上,一般可以把索引放在高速的儲存裝置上,而將表存放在一般儲存裝置上,以加快資料的查詢速度。
4)建議在系統中使用廉價的沉餘磁碟陣列。
資料倉儲索引設計特殊性
按照索引使用的頻率由高到低新增,知道某一索引加入後,使資料載入或重組表的時間過長時,就結束索引的新增。
儲存優化與儲存策略
1)表的歸併與簇檔案
2)反向規範,引入沉餘
3)表的物理分割
資料倉儲的架構與設計
公司之前的資料都是直接傳到hdfs上進行操作,沒有乙個資料倉儲,趁著最近空出幾台伺服器,搭了個簡陋的資料倉儲,這裡記錄一下資料倉儲的一些知識。涉及的主要內容有 什麼是資料倉儲?資料倉儲的架構 資料倉儲多維資料模型的設計 官方定義 資料倉儲是乙個面向主題的 整合的 隨時間變化的 但資訊本身相對穩定的資...
資料倉儲設計
資料倉儲簡介 有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以 如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科...
資料倉儲(六) 資料倉儲的概念設計
在資料集市設計中可以使用3種基本的系統方法 資料驅動的方法 需求驅動的方法和混合方法。它們的區別在於源資料庫分析和終端使用者需求分析階段所佔的比重。方法的選擇將極大地影響概念設計的方式。資料驅動方法包括 基於實體 關係模式的設計 基於關係模式的設計 基於xml模式的設計。概念型實體 關係模式比關係型...