銀行資料倉儲體系實踐(7) 資料模型設計及流程

2022-05-10 04:38:14 字數 2618 閱讀 2647

資料倉儲作為全行或全公司的資料中心和匯流排,匯集了全行各系統以及外部資料,通過良好的系統架構可以保證系統穩定性和處理高效性,那如何保障系統資料的完備性、規範性和統一性呢?這裡就需要有良好的資料分割槽和資料模型,那資料分割槽在第三部分資料架構中已經介紹,本節將介紹如何進行資料模型的設計。

1、各資料分割槽的模型設計思路:

資料架構部分中提到了在資料倉儲中主要分為以下區域,那各資料區域的主要設計原則如下:

(1)主資料區:主資料區是全行最全的基礎資料區,保留歷史並作為整個資料倉儲的資料主儲存區,後續的資料都可以從主資料區資料加工獲得,因此主資料區的資料天然就要保留所有歷史資料軌跡。

2)整合模型區:該模型區域按主題方式對資料進行建模,需要對源系統表字段按主題分類劃分到不同的主題區域中,並主要按3正規化的方式設計表結構,通過主題模型的設計並彙總各系統資料,可以從全行及集團角度進行客戶、產品、協議(賬戶、合同)分析,獲得統一檢視。比如說,全行有多少客戶、有多少產品?通過主題模型事先良好的設計和梳理,可以很快獲得相關統計資料。

主資料區的模型設計按頂層設計(自上而下)為主,兼顧應用需求(自下而上)的方式,即需要有全域性視角,也要滿足應用需求。那頂層設計主要是需要從全行資料角度對源系統的主要業務資料進行入倉,獲得全行客戶、業務資料的整體視角,同時又儲存所有交易明細資料,滿足後續的資料分析需求;應用需求指源系統資料的入倉也需要考慮當前集市、資料應用系統的資料需求,因為資料需求是千變萬化的,但是只要保留全面的基礎的業務資料,就有了加工的基礎,當前的資料需求只是考慮的一部分,更多的需要根據業務經驗以及主題模型進行資料入倉和模型設計。

主資料模型的設計主要自上而下,近源模型層雖然比較簡單,但設計步驟和整合模型型別,分為以下幾個步驟:

步驟1:系統資訊調研,篩選入倉的系統並深入了解業務資料;

步驟2:對入倉系統進行表級篩選和字段篩選,並將字段進行初步對映;

步驟3:根據入倉欄位按一定規範設計邏輯模型;

步驟4:對邏輯模型進行物理化;

(2)集市區:集市區的設計表結構設計主要按維度模型(雪花模型、星形模型)進行設計,主要是為了方便應用分析,滿足資料應用需求,集市區一般以切片的形式保留結果歷史資料,但保留期限不會太長,比如只保留月末資料以及當前月份的每日切片資料。

資料集市需要從資料倉儲獲得基礎資料,對於倉內集市,可以直接訪問或通過檢視訪問,減少資料儲存,倉外集市則需要從資料倉儲獲得批量資料作為基礎資料進行儲存加工。因此倉外集市還需要設計基礎資料的保留策略。

集市區的設計步驟如下:

(3)介面區:介面區的設計完全根據資料應用系統的介面方式來進行,一般也是維度模型(事實表+維度表)方式,介面區之前也提到過,不做複雜計算,只做簡單關聯,可以將複雜計算放到集市或指標彙總層加工。

(4)指標彙總區:作為集市介面區和主資料區的中間層,主要是提供基於各集市和介面資料的共性需求,基於主模型區資料進行統一加工。即面向所有的應用需求來設計,那中間層一般採用維度模型,按從細粒度到粗粒度的方式逐步彙總。由於各資料應用及集市的需求不斷變化,指標彙總區也是不斷進行完善,許多一開始在集市的加工由於其它集市或應用也需要,則會從集市轉移到指標彙總層。常見的資料就是客戶、賬戶、合同等常用的資料實體的寬表(事實表),統一進行彙總後供各資料應用使用。

另外指標彙總層也包括共性指標的加工,指標可以通過基礎指標配置指標計算加工方式獲得衍生指標,那這些基礎指標和衍生指標的定義、口徑以及加工方式可以由指標管理系統來維護並整合到資料標準系統和元資料管理系統中。

指標彙總區設計步驟如下:

(5)非結構化資料儲存區:非結構化儲存區的設計不僅需要考慮非結構化資料本身的儲存,同時需要考慮非結構化資料所帶有的結構化屬性,因此在設計時主要考慮以下幾點:

3)對部分文件內容建立索引:對於部分文件如合同電子版、紅標頭檔案pdf需要建立內容索引,以便快速搜尋查詢檔案內容,一般可用支援hadoop的elasticsearch來實現。

4)設立計算區和結果區:由於非結構化資料往往需要使用mapreduce或程式化語言進行處理,也會產生中間臨時檔案和結果資料,因此需要規劃計算區和結果區來存放這些資料。

(6)歷史資料儲存區:歷史資料區作為歷史資料的歸檔,即包括結構化資料,也包括非結構化資料,對於歷史資料除了儲存也需要方便查詢,歷史資料區的規劃設計需要考慮非結構化資料儲存區的儲存、索引設計外,還需要考慮以下幾點:

1)壓縮,由於歷史資料使用頻率低,可以選擇壓縮率較高的演算法,降低儲存空間。

2)容量規劃:由於歷史資料歸檔會越來越大,因此需要提前進行容量規劃以及歷史資料清理。比如10年以上的資料進行刪除。

3)可設計乙個管理系統對歷史資料進行歸檔、查詢以及管理。

(7)實時資料區:實時資料區需要使用部分批量資料來和實時流資料進行關聯加工,因此可從主資料區獲得所需要的資料後進行存放在實時資料區的關聯資料區,同時對於加工結果不僅可以推送到kafka等訊息中介軟體,同時也可輸出到實時資料區的結果區進行保留。

銀行資料倉儲體系實踐(8) 主資料模型設計

主資料區域中保留了資料倉儲的所有基礎資料及歷史資料,是資料倉儲中最重要的資料區域之一,那主資料區域中主要分為近源模型區和整合 主題 模型區。上一節講到了模型的設計流程如下圖所示。那近源模型層的設計在第2.3和3這兩個步驟中相對簡化,模型表設計的結構同源系統的表結構,欄位也一一對映即可。那下面以整合 ...

資料倉儲 資料模型

資料模型是抽象描述現實世界的一種工具和方法,是通過抽象的實體及實體之間聯絡的形式,來表示現實世界中事務的相互關係的一種對映。在這裡,資料模型表現的抽象的是實體和實體之間的關係,通過對實體和實體之間關係的定義和描述,來表達實際的業務中具體的業務關係。資料倉儲模型是資料模型中針對特定的資料倉儲應用系統的...

資料倉儲實踐雜談(十四) 資料模型參考

目錄 眾所周知,資訊系統最重要的作用就是處理並儲存資訊,尤其在商業應用中。以銀行記賬為例,最重要的是賬本,不管前面的流程如何,只要記下來張三某年某月存入100元,業務就算完成了。當然,不是說業務流程的實現不重要,更便捷的流程,能提高業務效率。但核心的部分,是先要把事情做正確。簡單的定義,資料模型就是...