螞蟻金服資料質量治理架構與實踐

2021-09-12 16:48:00 字數 3601 閱讀 6085

摘要:以「數字金融新原力(the new force of digital finance)」為主題,螞蟻金服atec城市峰會於2023年1月4日上海如期舉辦。金融智慧型專場分論壇上,螞蟻金服資料平台部高階資料技術專家李俊華做了主題為《螞蟻金服資料治理之資料質量治理實踐》的精彩分享。

李俊華 螞蟻金服資料平台部高階資料技術專家

資料治理概況

資料質量治理挑戰

資料質量治理實踐

近年來,螞蟻金服不斷在資料架構上進行公升級改造,其目的在於解決螞蟻所面臨的資料物理孤島問題。如今,螞蟻以及整個阿里巴巴集團的底座都統一到了同乙個平台上,這樣當實現第五代資料架構體系公升級時,就降低了一站式研發的整體門檻,並使得螞蟻金服的所有工程師都可以在平台上輕鬆玩轉資料。如今,在螞蟻的資料架構中已經能夠很好地解決資料孤島問題,而如今在資料治理體系中所需要關注的就是邏輯的孤島。

在對資料治理展開論述之前,先談一談資料價值。之前的情況是,當資料首先需要經過專門團隊負責處理,刪除沒有價值的資料,負責上線或者下線資料。但是,對於資料價值的判斷也是乙個非常令人頭疼的問題,大部分的資料只會上線不會下線,這樣就造成了大量沒有價值的資料的堆積。而如今,螞蟻不僅關心下線沒有價值的資料,同時也側重資料資產的價值最大化。在資料價值方面,螞蟻有一套完整的資料資產等級以及資料資產的易用模型,這樣就能夠驅動自身充分利用資料資產,來創造更多的價值。但是如果這些資料被使用了,但是質量卻很低,這樣就會使得資料資產的價值大打折扣。

資料質量產生分析

接下來將重點介紹螞蟻金服在資料治理質量領域的實踐思路和方案,並與大家分享兩個案例。如下圖所示的是抽象資料抽取的全流程圖。當某個業務同學錄入資料的時候出現一點錯誤,就會造成資料的質量問題,比如把客戶的行業資訊填錯或者打錯了乙個字都會造成資料質量問題,而這樣的問題很容易出現。在基於傳統資料庫資產開發資料應用的時候,基本都是從資料來源端產資料過來,經過加工、分析再將資料傳送出去,也就是「從業務中來,最後回到業務中去」。現在的方案與之前存在很大區別,以前做資料處理時,從資料生產的採集資料來,加工之後就給出去了,而如今螞蟻很多資料應用將資料處理之後還會回到資料系統中。比如芝麻信用分的計算中存在很多大家看不到的場景,這些資料處理之後還會回到系統之中,而這個過程中每個環節都可能存在資料質量問題。

在下圖中的左側展示了螞蟻的業務形態。如今,螞蟻的業務場景已經不再僅限於統計分析,而在螞蟻的芝麻分、花唄、借唄以及「310」放款的背後都是資料在進行支撐並驅動著其發展。今天,螞蟻的業務形態成為了「技術+資料+演算法」三者的融合來追求價值最大化。與此同時,資料質量治理也存在著諸多挑戰,它們來自於業務方面、資料方面、使用者方面。

資料質量治理思路

從事金融業務的同學往往深有感觸,網際網路金融時代業務的生命週期縮短了很多,並且變化也非常頻繁,相比於原本銀行的節奏顯得非常快。此外,目前無論是螞蟻金服還是阿里巴巴都在談「資料業務化、業務資料化」,資料和業務一同共同發展和前進,並且已經進入了發展的深水區。之前的幾年,螞蟻在業務上偏向於「t+1」,而如今,原來的架構體系不足以支撐螞蟻未來繼續發展以及高時效性的訴求。同時,如今螞蟻的資料體量很大,而資料業務也驅動螞蟻的整個人才體系的公升級。現在,除了本身做資料演算法研發的同學之外,其他的技術同學也都會在平台上使用資料,這些同學可能對於資料的認知不同,那麼在資料驅動下真正保證資料質量就顯得異常重要。

那麼如何實現資料質量治理呢?首先,需要有一套明確的組織,這是持續建設企業文化的土壤,而資料質量治理文化的建設一定是乙個確定的、有組織的並且需要長期持續推進的事情。在組織保障和質量文化的基礎之上,螞蟻還側重了研發流和資料流。在金融領域,研發流的管控更嚴格,也更嚴謹。而對於如今的網際網路金融而言,也需要進行強管控,這是因為業務形態決定了研發週期很短,現在螞蟻在研發流做了強管控,在一站式資料研發平台上,使用了分級管控。需求提出之後就會被等級管理,並且進行打標,進而走入不同流程。此外,研發流上還側重分級管控,在同一套標準上定義級別,拉平不同的研發流。對於資料流而言,當乙個應用發布到生產環境之後,大部分精力花費在資料流中,每天需要從生產環境將資料採集到處理平台,然後執行演算法計算,之後將資料返回到生產環境中,走這樣的閉環。如今,螞蟻在資料流鏈路上做了很多事情,也建設了很多能力。對於資料流而言,如果源頭被汙染了,如果不能控制其汙染到下游,那麼越往下修復成本就越大。

基於以上的資料質量治理思路,螞蟻金服做了很多有意思的東西,在資料平台執行時會將整個體系監控起來,如果出現資料質量故障,就能夠及時進行修復。此外,從研發到生產的各個環節,螞蟻都做了大量的工作,這是因為基於平台進行資料研發的同學很多,需要盡量降低使用門檻。對於全資料流而言,主要建設了四大能力,包括感知能力、識別能力、智愈能力和運營能力。平台需要能夠感知發布任務的故障問題以及資料質量問題,此外,平台需要能夠識別出潛在風險,因為需要非常及時地了解被破壞的資料。當風險被識別出來之後,就需要智愈能力,之所以使用「智」,是因為原本資料處理任務往往是離線的,可能從凌晨開始到早上8點鐘左右屬於資料生產高峰,在這段時間裡會有人員參與質量保障任務。而智愈能力就希望通過ai演算法來配合資料處理工作,使得感知能力疊加演算法能力,能夠對於資料感染進行自癒。最後是運營能力,資料質量不會被展現在前台,如果資料質量足夠好,完全可以實現無感知,使用者不用再擔心資料能不能用,也不會出現敢不敢用的疑惑,因此資料質量對於運營而言也非常重要。其實,資料質量問題既不僅屬於研發也不僅屬於業務,而是需要全員參與,共同來解決,這就是資料治理的思路。

螞蟻資料質量治理架構

在生產階段,則主要側重於質量監控、應急演練以及質量治理這三個系統能力。質量監控告警系統能力在大部分的資料系統架構中應該都有,其功能類似於汽車的剎車功能,因此肯定是存在的。而螞蟻卻做了一件很有意思的事情——資料攻防演練,工程師會人為創造故障,然後測試系統能否在短時間內發現故障並進行有效修復,這部分也是目前螞蟻在重點進行建設的能力。在質量治理部分,會根據不同應用的級別,發布到生產環境之後進行定期巡檢,分析是否會影響資料質量。總之,對於資料質量架構體系的系統層而言,不僅原資料非常重要,如今更是結合機器學習來自動配置一些相關策略。

資料質量治理方案

如下圖所示的是螞蟻金服在實踐中的事前、事中、事後的資料質量質量方案。整體而言,事前包括需求、研發、和預發三個階段,而如今螞蟻在事前可以做到的可管控、可**、可灰度。在事中,監控問題是重點建設的,出現問題不可怕,但是需要實現自主發現問題。而為了使得防禦能力更強,螞蟻實現了主動的攻擊演練,而正是通過攻防演練,幫助螞蟻發現了自身很多薄弱的地方。除此之外,還在事中提供了強大的應急能力,某些事件將會觸發應急預案,在這部分,保證資料質量其實就是把不確定的資料風險變成確定的東西。在事後,資料質量也非常重要,事後需要通過有效的指標和管控手段來進行審計和度量,以此發現整個鏈路上不完善的地方並持續完善。

資料質量治理案例

螞蟻金服資料質量治理架構與實踐

摘要 以 數字金融新原力 the new force of digital finance 為主題,螞蟻金服atec城市峰會於2019年1月4日上海如期舉辦。金融智慧型專場分論壇上,螞蟻金服資料平台部高階資料技術專家李俊華做了主題為 螞蟻金服資料治理之資料質量治理實踐 的精彩分享。李俊華 螞蟻金服資...

螞蟻金服資料質量治理架構與實踐

摘要 以 數字金融新原力 the new force of digital finance 為主題,螞蟻金服atec城市峰會於2019年1月4日上海如期舉辦。金融智慧型專場分論壇上,螞蟻金服資料平台部高階資料技術專家李俊華做了主題為 螞蟻金服資料治理之資料質量治理實踐 的精彩分享。李俊華 螞蟻金服資...

螞蟻金服資料質量治理架構與實踐

摘要 以 數字金融新原力 the new force of digital finance 為主題,螞蟻金服atec城市峰會於2019年1月4日上海如期舉辦。金融智慧型專場分論壇上,螞蟻金服資料平台部高階資料技術專家李俊華做了主題為 螞蟻金服資料治理之資料質量治理實踐 的精彩分享。李俊華 螞蟻金服資...