資料倉儲技術及其在銀行業的應用

2021-08-22 07:31:27 字數 3165 閱讀 5196

詳見:附件

利用先進的資料倉儲技術建立集中的、包含詳細交易資料的商業智慧型解決方案,已經成為各大銀行對內加強經營管理和決策支援,對外更好地了解客戶需求,開發新產品或服務,利用現有渠道對客戶進行交叉銷售,增加贏利能力,並在特定的業務領域提供差異化服務的重要手段。

與前幾年不同的是,大家目前都在談論企業級資料倉儲(edw,enterprise data warehouse),對於資料集市的定位也基本形成共識,那就是資料集市應該從屬於企業級資料倉儲。所謂edw,基本的要求是整個企業能夠共享統一的資料儲存模型,為各級業務人員提供一致的資訊檢視。實施時可以先按照需求的輕重緩急選擇部分業務主題,然後逐步擴充套件到涵蓋全部業務。

兩種資料倉儲體系架構

集線器結構

之所以把這種結構稱為「hub and spoke」,是因為**資料庫匯集了來自各業務處理系統的資料,同時也負責向各從屬資料集市提供資訊,看上去象乙個hub (集線器)一樣。而業務人員在進行資料分析與資訊訪問時將根據需要連線到不同的資料集市,這種交叉複雜的連線看上去就象spoke(車輪輻條)一樣。由於這樣的關係,著名評估機構gartner group把這種結構的資料倉儲形象地稱為「hub and spoke data warehouse」。

集線器結構的企業級資料倉儲

「hub and spoke」結構解決了企業內統一資料儲存模型的問題,但從實際使用的角度來看仍有比較嚴重的缺陷。主要體現在兩方面:一是業務人員對資訊的訪問非常不方便,很難進行跨資料集市或跨部門的資訊分析。資料集市的儲存模型需要根據預先定義的分析需求進行規劃和設計,業務人員根據分工到指定的資料集市上去訪問相關資訊。如果需求發生變化,就需要對資料集市重新規劃。這顯然不能滿足日益變化的市場需求。**資料庫只是起統一資料儲存和重新整理資料集市的作用,一般不提供資訊訪問。另乙個問題是每個資料集市都需要相應的軟硬體投入,當資料集市增加時,系統整體投資迅速增加,同時管理的複雜性也隨之增加。這些都意味著巨大的整體擁有成本。

為什麼不直接訪問**資料倉儲而非要設計乙個資料集市層呢?主要原因在於當**資料庫儲存越來越多的資料、併發使用者越來越多時,一般的資料庫引擎無法承擔這樣的負載,只好把它們分解到不同的資料集市。

集中式結構

與前面討論的「hub and spoke」結構相比,集中式結構與之主要的差別在於:資料集市分成物理與邏輯兩種,物理資料集市設立在**資料倉儲之外,具有專門的軟硬體裝置。一般都使用olap伺服器,按照特定需求組建多維立方體來提供多維資訊分析。邏輯資料集市設立在**資料倉儲之內,由在基礎資料之上形成的小結表或者邏輯檢視組成。業務人員既可以訪問多維立方體,也可以訪問**資料倉儲內的小結表或者邏輯檢視。這些分析主要針對預先定義的業務需求,並且粒度比較粗。基於olap伺服器的資料集市比基於rdbms的資料集市要容易維護得多,當然規模也相對較小。

集中式結構的企業級資料倉儲

**資料庫採用符合資料庫正規化理論(一般為第三正規化)的儲存模型來儲存基礎資料,從而為整個企業提供一致的資訊檢視。上面說明的資料集市主要針對粒度較粗、預先定義的分析需求,對於動態的業務查詢、粒度較細的或者針對基礎資料的分析需求則由**資料庫提供。因此業務人員可以直接訪問到最基礎的詳細資料,特別是高階業務分析師,將更頻繁地基於詳細資料進行分析,以便挖掘出內在的、隱含的業務規則,幫助企業主管更好地進行業務決策。

在**資料庫中還設立了乙個資料轉換與緩衝區(data staging area),作為etl(抽取轉換裝載機制)處理的一部分。由於在很多資料倉儲的etl處理流程中,需要對源資料作一些比較複雜的轉換與清洗工作,如果僅借助於etl工具實現這種轉換與清洗,由於沒有資料庫的支撐(etl工具均在資料庫之外執行),經常會產生比較嚴重的效能問題。於是在一些系統中增加乙個ods(operational data store)層來進行資料的整理,但這就像設立基於rdbms的資料集市一樣,將大大增加整體投資和管理複雜性。理想的方法是,在**資料庫中設定一部分儲存空間來作為資料轉換與緩衝區,借助資料倉儲引擎強大的複雜查詢處理能力,通過sql實現資料的轉換與清洗。這種實現方法簡單、快速、並且不容易出錯,當然對**資料倉儲引擎的處理能力就提出了更高的要求。

選擇這種資料倉儲基礎平台的基本要求第一是線性擴充套件能力。原始資料對任何乙個資料倉儲來說,都是最主要的負載之一。隨著資料量的增長,系統效能會逐漸下降。為了維持合理的業務查詢響應時間,要求資料倉儲引擎和相應的資料庫伺服器具有優良的線性擴充套件能力。一些系統的擴充套件能力非常有限,當資料量增長到一定規模時(比如tb級以上)已經很難滿足日常的業務分析要求,不得不把資料分離到多個小規模的資料集市,形成所謂的「hub and spoke」結構。第二項基本要求是並行處理能力。許多業務查詢與分析都是動態(ad-hoc query)的,資料庫傳統的索引技術對動態分析和模糊查詢的幫助不大。系統必須具有非常好的並行處理能力,才能滿足複雜的、動態的分析需求,並且承擔比較複雜的資料轉換與清洗工作。第三個基本要求是簡單的系統管理。對於大型的資料倉儲應用系統而言,如何能有效而簡單地進行系統管理是非常重要的。特別是當資料量不斷擴大時,如果沒有一種有效而且簡單的系統管理措施,那麼系統的執行費用將會很高。

資料倉儲技術在銀行業的應用

資料倉儲體系結構屬於基礎設施的建設,只有穩固的資料倉儲基礎設施才能支撐靈活多樣的資料倉儲應用。對於銀行業來說,資料倉儲的應用面非常廣,基本上涵蓋了銀行經營管理與業務運作的各個方面。

現在國內幾大商業銀行都在著手調研、準備或者嘗試實施基於資料倉儲技術的各種解決方案。比如,中國工商銀行進行了以個人客戶關係管理(pcrm)和業績價值管理(pvms)為主題的應用試點,中國銀行則全面規劃了信用卡系統,其中很重要的乙個子系統就是基於資料倉儲技術的銷售和客戶服務系統,中國農業銀行正在廣東分行進行經營分析系統的建設,中國民生銀行也全面啟動了客戶資訊管理(cim)和企業級資料倉儲的建設。

銀行通過逐步建立企業級資料倉儲,可以對全行業務資料進行集中儲存和統一管理,科學合理地對資訊進行詳細分類,及時準確收集資訊和分析資訊,確保管理層隨時掌握銀行的經營風險、運營情況和經營目標。在引入詳細交易資料以後,可以通過各種資料的關聯分析,衡量各類客戶需求、滿意度、贏利能力、潛在價值、信用度和風險度等指標,幫助銀行識別不同的客戶群體,確定目標市場,為實施差別化服務、產品合理定價的策略提供技術支援。

銀行應用資料倉儲模型

在一次資料倉儲使用者大會上,香港東亞銀行的cto在結束其演講時深有體會地談到,東亞銀行花了兩至三年的時間來完善其資料倉儲的基礎設施,現在終於得到可觀的回報。對於各大商業銀行而言,同樣需要一定的時間來建立資料倉儲基礎設施,並在建置的過程中逐步完善資料質量。這種打基礎的過程是無法省略的。更為重要的是,在建立資料倉儲的過程當中,可以培養一批既懂資料倉儲技術、又精通銀行業務的高階分析人才,這對於更好發揮資料倉儲價值是非常重要的。

來自:

區塊鏈在銀行業的應用

今日招商銀行宣布,招商銀行在區塊鏈技術上實現了新的突破,首家實現將區塊鏈技術應用於全球現金管理 global cash management 領域的跨境直聯清算 全球賬戶統一檢視以及跨境資金歸集這三大場景。2016年6月,招行已通過跨境直聯清算業務poc實驗,率先實現將區塊鏈技術運用於銀行核心系統中...

大資料在銀行業的應用場景

隨著銀行業務的載體與社交 電子商務的融合越來越緊密,僅對原有15 的結構化資料進行分析已經不能滿足發展的需求。企業需要借助大資料戰略打破資料 邊界,囊括85 的大資料分析,來構建更為全面的企業運營全景檢視。以科技引領業務發展,未來銀行也同樣需要借助由大資料構建的企業經營全景檢視來進行風險管理 產品營...

資料倉儲技術及其演變

速度 可用 資料增長 資料的多樣化 軟硬體技術進步,降價 dw dw2.0 變化 總體 dw架構 來自 來自 dw 2.0 the architecture for the next generation of data warehouse 挑戰 反向於集中式?雲是否合適大資料?結構化資料 半結構化...