恆豐銀行基於大資料平台構建資料倉儲的研究與實踐

2021-08-18 22:46:39 字數 4641 閱讀 4777

恆豐銀行原傳統資料倉儲是建立在ioe(ibm、oracle、emc)傳統架構體系上,已接入資料來源系統有30多個,配套建立監管資料集市、資料分析集市,風險資料集市三個主要資料集市,負責十幾個管理應用和監管系統的資料需求,下游建有銀行管理類系統如綜合經營分析系統(管理駕駛艙)、自定義查詢平台等,並為各分行提供資料下發服務。

隨著恆豐銀行各類業務快速發展以及與外部機構跨界合作的展開,歷史資料越來越多,半結構化資料、非結構資料也越來越多,資料的統一儲存和處理面臨硬體成本和訪問壓力等問題,原有的技術架構體系越來越不適應業務發展要求無法滿足金融科技環境下銀行對大資料的應用創新需求。

本文根據恆豐銀行在大資料平台建設經驗上提供解決上述問題的實踐案例,案例中在技術架構上大資料技術可以解決已有資料倉儲的效能瓶頸問題;在業務層面,大資料平台體系的資料倉儲能夠利用資料創造更多的業務價值,為銀行經營決策者制定方案提供更合理的資料參考。

一、大資料對銀行資料管理的挑戰

在日益激烈的國際、國內行業競爭環境下,商業銀行努力優化服務結構、迅速響應市場變化、精細化管理決策,以求在新環境下抓住新機遇。在這一背景下,商業銀行逐漸尋求技術突破,通過科技驅動業務變革、提公升業務價值,走在行業前列。但應看到,在網際網路、大資料技術日新月異的今天,商業銀行面臨著諸多挑戰。

首先,商業銀行面臨著全量、多維、更新迭代迅速的資料衝擊,對資料的採集、儲存、應用、分析、管控、擴容均提出了新的挑戰。雖然資料倉儲系統在商業銀行已發展十餘年,但由於單節點處理能力較弱,以scale-up縱向擴容方法提公升硬體能力的方式成本高昂,效能提公升有限,已無法滿足業務快速發展的需要。

其次,隨著商業銀行業務日益多樣化、複雜化,業務系統越來越多,資料孤島效應凸顯,資料系統分開建設,資料架構設計中的職責劃分不合理,系統之間存在重複加工、統計口徑不一致、大量資料冗餘的現象,系統之間無法形成協同效應。

最後,由於商業銀行業務場景的變化,業務部門對於實時決策的要求越來越強烈。例如,實時精準營銷、實時風險預警,都要求資料倉儲有高併發、低延遲、非結構化的資料處理能力。而傳統資料倉儲由於技術架構上的天然侷限難以滿足此類場景的資料探索需求。

二、恆豐銀行大資料平台建設實踐

恆豐銀行處於業務發展的新階段,新業務模式的創新對資料資訊服務的總體能力提出了新的要求,需要乙個低成本可線性擴充套件的統一資料處理平台,解決企業多個資料應用形成資料孤島,導致資料資源難以共享、資料標準不

一、存在大量冗餘資料的問題。但現有的主流資料庫技術因為系統架構陳舊已經不能滿足業務發展需要,開源大資料技術在商業銀行企業級應用場景下還有諸多不完善的地方。

2023年,恆豐銀行在開源軟體、國產大資料平台的基礎上,自主設計開發建設企業級大資料應用平台,利用全新的大資料平台技術全面重構了企業資料倉儲應用,滿足海量結構化與非結構化資料的低成本加工儲存、快速統計分析、業務模型探索、實時分析與決策等需求。結合大資料技術服務能力,公升級改造原有的渠道、授信管理、審計、客戶管理等系統,在客戶服務、風險管理、內部管控、流程優化、營銷管理等多個業務領域提公升恆豐銀行的運營效率和市場競爭力。

1.資料倉儲技術平台選型

基於銀行當前應用資料能力的要求,新一代企業級資料倉儲應具備如下技術能力:

(1)支撐海量資料儲存和低延遲聯機查詢,將企業主要資料匯聚到乙個平台上,支援大併發的低延遲聯機查詢,這也是一般企業應用大資料能力的初步目標。

(2)支援統計分析應用,包括即席業務統計報表、多維業務資料分析、客戶群體細分等應用,一般可替代傳統資料倉儲的主體功能。

(3)資料探索與業務**。支援業務分析團隊的資料探索和業務建模實驗,實現諸如業務趨勢**、客戶行為**等高階應用。

(4)決策支援能力。通過應用決策樹、規則推理引擎、運籌優化技術,實現客戶定價、風險預警等領域特定業務問題的機器自動化流程管理和簡單人機互動方式的輔助業務決策支援應用。

(5)自主學習能力。通過引入深度學習網路、知識圖譜、遺傳演化等智慧型技術構建相對複雜的機器智慧型學習體系,能從海量資料中提煉**值資訊,構建自主訓練與反饋、可不斷從最新資料中調整演化的智慧型業務模型體系。

以hadoop/spark為代表的大規模資料處理技術為超越傳統資料庫的處理侷限性提供了先進的平行計算和資源排程框架。在經過充分評測後恆豐銀行最終確定採用hadoop/spark架構作為新一代企業大資料平台的基礎設施元件。

該平台具備高模組化和松耦合架構,針對不同的應用領域通過元件之間的靈活組合與高效協作來提供定製化的大資料平台支撐;此外,平台已全面支援sql、pl/sql標準資料庫語言及oracle、db2、mysql、sqlserver等多種銀行傳統應用資料庫,結合自身資料探勘與機器學習元件,能夠構建起強大的資料分析生態系統。

2.大資料平台層次化架構設計

基於大資料平台構建的新一代資料倉儲的整體架構(如圖1所示包括如下層級結構),完成對資料來源儲存、加工、應用、輸出、資料管理等各層面的重構。

(1)源系統結構化資料:源系統按大資料平台的供數規範要求提供表資料文字和標誌檔案。

(2)檔案交換區fsa:檔案的交換中樞,含源系統結構化資料和半結構化、非結構化資料(主要是外部資料)。

(4)源資料歷史層hdm:源資料快取區資料接入。

(10)資料分析集市:bi統計分析類應用所在的資料集市,公共資料彙總層adm的加工和儲存,資料服務介面的資料接入。

(11)統一排程平台:大資料平台etl過程的統一作業排程監控,包括:排程、監控、日誌、處理四部分內容。

3.原關鍵資料倉儲應用遷移

(1)梳理資料移植流程

①利用sqoop技術連線原資料倉儲抽取資料到hdfs檔案系統;

②將原資料倉儲的資料抽取到hdfs檔案系統後,在大資料平台中構建對映在這些資料檔案上的外表,其表結構與原資料倉儲表結構一致;

③在構建外表後,資料平台已可以查詢到原資料倉儲的資料,為構建資料平台的hdm層源資料備份,還需將這部分的資料進行還原操作。

資料移植流程如圖2所示。

(3)建立歷史資料平台

(4)重構銀監標準化(east)應用

銀監標準化east系統改造內容主要是資料連線改造(jdbc-hadoop)和引數配置調整,不包括系統功能和流程。由於east系統資料結構為oracle表,儲存過程為oracle儲存過程,需根據大資料平台的特性對錶結構進行重構,支援大資料平台的儲存過程格式,並進行資料移植。

4.注重公共模型開發

恆豐銀行當前資料倉儲存在應用離散、冗餘資料加工、資源緊張等問題。所以,公共資料模型的建設需要統一需求管控,建立更大的專案資源池,減少重複開發,規劃應用方向;統一計算口徑,減少資料冗餘和資料複製,減少重複資料加工;同時,能夠滿足不同應用場景的共性需求,穩妥推進新技術應用。公共資料模型層建設原則如圖3所示。

在主題模型領域,根據主題+業務方式進行資料儲存,以具體業務為依據提練主題要素,涵蓋客戶、事件、產品、作業、財務績效、資產管理、市場與公共元資訊(如費率、利率與匯率)。依據可重用性、安全性、高可用性、可管理性、可擴充套件性、高效能的設計原則,採取總體規劃、分層實現的方式。以底層軟硬體與資料相結合,需求與問題驅動,建設良好公共資料模型層,便於資料更直觀完善的展現,為業務和決策人員的分析決策提供良好的支援。公共資料模型層的整體規劃如圖4所示。

構建公共模型層,資料**主要包括行內資料、同業資料和外部資料三大部分。

(1)行內資料:行內的業務系統、管理系統資料報括核心、企貸、個貸、國結等數十個源系統資料。九大類資料集成為公共資料模型七大主題,根據相應主題+業務劃分對源資料進行重新整合分類歸總。

(2)同業資料:同業資料報括監管當局和其他銀行披露的各項業務指標——規模資料、盈利資料、風險資料。

(3)外部資料:從外部採購或抓取的資料,如徵信、輿情、巨集觀資料。

5.開發專業資料集市與資料應用

恆豐銀行詳細規劃了各管理分析領域的業務應用場景,形成了營銷主題、風險主題、客戶主題、資訊主題、運營主題、績效主題等專業共享資料集市,為具體管理分析域的業務應用提供了基礎明細層、共享加工層、結果資料儲存和對外服務介面。

在資料應用方面,大資料平台專案一期已經陸續構建了信貸工廠、報表平台、精準營銷、全面風險預警、客戶關係管理crm、財富管理系統、大資料資訊平台、反欺詐、信用卡交易監測、資料視覺化、客戶生命週期管理、運營風險監測等40多個上層應用。在二期專案規劃中,還包括決策管理引擎、使用者畫像與營銷推送、實時風險監控等資料應用,充分發揮大資料平台在海量資料計算、非結構化資料處理、實時流資料處理、記憶體計算與列式儲存等領域的能力與優勢。

通過大資料平台的業務建模能力,為全行資料價值發現提供了領域技術基礎;通過資料探索、機器學習模型與演算法,為業務部門從行內外海量資料中尋找價值突破口提供實踐依據。

三、大資料平台建設取得的成效

目前,基於大資料平台的資料倉儲已全面上線,並支撐全行統一資料管理與資料服務。通過本次專案的技術實踐和應用系統的逐步落地,恆豐銀行實現了成本管理與業務管控的雙效提公升。

在經濟效益層面,經初步估計,企業資料應用的總體硬體投入成本將降為原來的1/5~1/10,資料庫軟體授權許可費更是只有原來的1/20;同時由於各應用建構在同乙個資料平台,每個應用減少了大量的共性資料加工和資料共享**開發,軟體開發成本也得到了降低,預計每年為恆豐銀行節約上千萬元的軟硬體投入和系統運維成本。

在生產效率層面,原有傳統資料倉儲的大資料量跑批處理往往需要4~5小時,新一代大資料平台的分布式計算能力,結合記憶體處理技術,處理同樣資料量級的工作僅需數十分鐘,大大提公升了營銷、風控、運營等業務流程的響應能力。

考慮到系統實現的新技術能力以及業務分析團隊獲得更高時效性的資料資源和更快的資料分析和建模能力,能創造的隱性業務價值也是非常可觀的。

大資料平台逐漸成為全行資料管控的樞紐和壓艙石。恆豐銀行通過大資料平台構建資料倉儲的專案實踐,逐漸建立全行資料綜合服務體系,即報表和查詢體系、基於專業引擎的資料計算訪問體系、資料分析服務體系、資料探勘體系,最終形成了資料應用價值到終端使用者的合理傳導機制。

銀行大資料

隨著銀行業務的載體與社交 電子商務的融合越來越緊密,僅對原有15 的結構化資料進行分析已經不能滿足發展的需求。企業需要借助大資料戰略打破資料 邊界,囊括85 的大資料分析,來構建更為全面的企業運營全景檢視。以科技引領業務發展,未來銀行也同樣需要借助由大資料構建的企業經營全景檢視來進行風險管理 產品營...

巨杉資料庫助力民生銀行 恆豐銀行雲化架構公升級

作為一款金融級分布式關係型資料庫,sequoiadb巨杉資料庫的分布式資料庫架構和面向微服務的雲化產品形態,已經幫助包括民生銀行 恆豐銀行在內的多家大型金融客戶實現了大量業務系統的底層資料庫雲化轉型公升級。如今,大型企業的應用平台正在向微服務架構進行轉型。在微服務架構下,應用程式和資料庫等底層平台的...

《基於Apache Kylin構建大資料分析平台》

kyligence聯合創始人兼ceo,apache kylin專案管理委員會主席 pmc chair 韓卿 武漢市雲昇科技發展 董事長,智慧型城市 大資料 物聯網和雲計算之應用 作者楊正洪 萬達網路科技集團大資料中心副總經理,spark高階資料分析 中文版譯者龔少成 資料架構師,it脫口秀 清風那個...