架構是資料倉儲建設的總體規劃,從整體視角描述了解決方案的高層模型,描述了各個子系統的功能以及關係,描述了資料從源系統到決策系統的資料流程。業務需求回答了要做什麼,架構就是回答怎麼做的問題。
資料倉儲的核心功能從源系統抽取資料,通過清洗、轉換、標準化,將資料載入到bi平台,進而滿足業務使用者的資料分析和決策支援。資料倉儲架構包含三個部分:資料架構、應用程式架構、底層設施。
底層設施為架構提供了基礎,底層設施包括硬體、資料庫平台、網路和桌面系統。
硬體主要指伺服器硬體,主要有資料庫伺服器、etl伺服器、排程伺服器、報表伺服器、bi門戶伺服器、介面伺服器。
資料庫平台分為二大類:聯機事務處理oltp(on-line transaction processing)、聯機分析處理olap(on-line analytical processing),olap是為資料分析而設計的資料庫管理系統。主要有oracel,mysql,teradata, greenplum,hive,kudu。
資料倉儲不同的應用對桌面系統也有不同的要求,開發工具主要有window、mac面系統,部署伺服器主要有unix桌面系統,系統bi應用程式主要有window、mac、移動裝置桌面系統。
網路是底層設施的基礎,特別是大資料時代對網路的要求越來越高。
資料倉儲是資料處理的後台,業務使用者並不關心後台怎麼處理。bi應用是資料呈現的前台,是業務使用者進行查詢的入口。bi應用程式的體驗也是衡量資料倉儲是否成功的主要因素。
業務分析從監視活動開始識別某個問題或時機,進而採取行動,最終回到監視該活動產生的結果上來,達到資料驅動業務增長的目的。分析週期把這個過程分為五個不同的階段。
資料以介面的形式提供給上下游系統,供上下業務系統進行查詢。主要有推和拉二種模式。
業務使用者根據自己的需求,自定義查詢請求,後台自動組織sql語句訪問維度模型。
根據業務使用者的需求,進行定製報表。
它是向企業展示度量資訊和關鍵業務指標現狀的資料視覺化工具。
為資料探勘工具提供標準基礎資料。
為了減少業務系統的大資料量查詢壓力,資料倉儲為業務系統提供實時的查詢。
資料架構主要描述資料從源系統抽取資料,然後經過清洗、規範化、提交形成標準模型,最終提交給業務使用者,以及對資料的管理。
資料倉儲一般會面臨多個、異構資料來源的問題,主要分為結構化,半結構化以及非結構化資料。為了便於管理需要對源系統建立元資料資訊。
因為源系統的多樣性,源抽取階段一般選擇使用工具。在抽取之前還要做以下工作:
資料剖析是對資料的技術性分析,對資料的內容、一致性和結構進行描述。對源系統的資料質量進行評估。
為了減少對源系統的影響,一般只抽取變化的資料,也需要識別物理刪除的資料。cdc策略主要有:
在源系統追加日期字段,當資料發生變化的時候,系統會自動更新該值。如果由後台人員手工修改資料,可能就發生遺漏。
比較源系統和資料倉儲的資料,只抽取變化的資料。這種方法需要全量的資料,比較耗費資源。可以視資料量的大小而定。
讀取資料庫操作日誌資訊,同步到資料倉儲中。一般日誌的有效期比較短,一旦發生要重跑的情況,可能以前的日誌已經被清空了。
把事務資訊放到訊息佇列裡,以流的形式同步到資料倉儲。這種方式即可以減輕源系統的壓力,又能做到實時同步。
資料從源系統抽取過來之後,就要進入資料轉換階段。 這一階段是資料倉儲開發核心階段。主要有以下步驟:
資料清洗是制定轉換規則,篩選資料並糾正資料的過程。清洗的目的是改進源系統的資料質量,但是不要在資料倉儲做過多的清洗,源系統的資料質量應該在源頭處理。清洗的主要內容包括:
規範化就是整合各個源系統的資料,把資料統一命名,統一取值,建立企業標準版本資料。主要內容包括:
提交就要根據維度模型生成維度表和事實表。 提交主要內容包括:
選擇合適的緩慢變化維型別
為維表生成**鍵
管理不同粒度的層次維
管理專項維
生成維度橋接表
生成**鍵管道
選擇合適的事實表型別
處理延遲到達的事實
生成維度表
生成事實表
聚集是指根據事務事實表進行更高粒度的聚合以及生成相對應的維度表。主要內容包括:
資料儲存是指在在資料的生命週期內對資料的管理,主要內容包括:
架構是資料倉儲建設的總體規劃,從整體視角描述了解決方案的高層模型,描述了各個子系統的功能以及關係,描述了資料從源系統到決策系統的資料流程。業務需求回答了要做什麼,架構就是回答怎麼做的問題。
資料倉儲 三 之架構篇
概述 架構是資料倉儲建設的總體規劃,從整體視角描述了解決方案的高層模型,描述了各個子系統的功能以及關係,描述了資料從源系統到決策系統的資料流程。業務需求回答了要做什麼,架構就是回答怎麼做的問題。架構的價值 資料倉儲架構 資料倉儲的核心功能從源系統抽取資料,通過清洗 轉換 標準化,將資料載入到bi平台...
資料倉儲 三 之架構篇
架構是資料倉儲建設的總體規劃,從整體視角描述了解決方案的高層模型,描述了各個子系統的功能以及關係,描述了資料從源系統到決策系統的資料流程。業務需求回答了要做什麼,架構就是回答怎麼做的問題。資料倉儲的核心功能從源系統抽取資料,通過清洗 轉換 標準化,將資料載入到bi平台,進而滿足業務使用者的資料分析和...
資料倉儲篇
資料倉儲技術 資料倉儲 data warehouse 是為了滿足中高層管理人員 決策分析的需求,在傳統資料庫的基礎上產生了能夠滿足 決策分析需求的資料環境。一 資料倉儲與傳統資料庫的區別 面向事務處理的傳統資料庫系統不在適應新形式下的管理決策分析的需求,其中體現在 1 系統的響應問題 在分析過程中應...