大資料平台技術發展脈絡

2021-09-23 07:23:07 字數 3448 閱讀 5508

作為集團「大資料平台技術」戰略研究的準備工作,本文梳理了近年來作者觀測到的大資料行業技術演進的路徑,希望把握發展脈絡,找到適合公司業務實際的方向。文章力求用通俗的方式描述概念,最大程度減少專業圖表與細節,以便向公司管理層與業務部門同事介紹大資料平台技術的發展與趨勢,這裡分享給金融行業的朋友參考。

資料技術演進

這些新框架沿著兩個思路解決吞吐量與響應時間的問題:垂直擴充套件(scale up)或 水平擴充套件(scale out)。垂直擴充套件門檻高,技術為ibm之類的大公司所壟斷,而水平擴充套件則門檻相對較低,以源自google公司的map reduce為代表,在開源的推動下迅速普及。著名的apache hadoop就是此類技術的代表,具備強大的生命力。

這些新框架多來自程式社群,其繁榮一度讓人們覺得可以淘汰資料社群sql那套技術體系。隨著多種nosql 資料庫的廣泛應用,人們發現,資料的一致性,可用性與並行性三者不是可以同時獲得的,強化其中之一是以弱化另外乙個要素為代價的。而且程式設計方式的資料使用缺乏一致的標準,造成諸多問題。因而,程式社群與資料社群的逐步融合成為趨勢選擇,nosql 發展成 not only sql, 再到 newsql, 水平擴充套件的新型資料處理框架獲得了標準化的sql訪問介面。

在很多場景下,分而治之的方式可以解決吞吐量的問題,單位時間內,增加更多的機器,可以增加處理的資料量,volume的問題得到解決。而系統對於處理速度的不懈追求,則可以通過不斷拉近資料與處理器(cpu)的距離得到滿足,磁帶到硬碟,硬碟到ssd,ssd 到 flash, flash到記憶體,記憶體到一二級cache, 再到暫存器。從記憶體資料庫到分布式cache,再到spark, 處理同等量的資料越來越快。

處理多樣性資料的系統也在與時俱進,對應數倉/bi時期的多**內容管理系統,多是以描述這些多**內容的元資料作為索引,訪問鏈結到這些內容資料。新分布式大資料處理框架下,則引入了文字分析,語音影象的機器學習以至深度學習技術來「認識」這些內容,而不是簡單的儲存與訪問。基於網際網路海量內容的知識圖譜的構建也有大幅度進步。

fintech資料處理

金融,一直是資料系統的重量級應用行業,資訊化早,程度也高。隨著ibm oracle等巨頭在該行業深耕多年,金融機構大多在傳統的資料體系上有了較為完備的建設。oltp交易系統、資料同步、整合與治理、資料倉儲/集市、bi 報表與統計分析,是相對完善的。不少的企業還實現了內容管理系統的建設使用。

網際網路企業在大資料上面構築的資料資產壁壘,開發利用後獲取的競爭優勢,讓傳統的金融企業,特別是那些坐擁億萬客戶資源的金融企業,開始意識到大資料帶來的價值以及潛在的驅動與變革力量,逐步重視積累與發掘利用大資料資產,籍此提公升企業的科技能力,獲取行業的競爭優勢。「資料陽光」就是陽光保險集團**遠矚的重要戰略。

金融行業服從嚴格的資料安全與監管,對資料一致性近乎苛求。因而傳統的金融資料體系以可靠性與一致性為原則構建,強調事務處理,其中涉及到的分布系統也都具備兩階段提交(2pc)等分布式事務能力。起源於網際網路企業的大資料處理框架,則多選擇放鬆處理過程中的一致性要求,提公升系統並行能力與效能,僅追求最終一致性。因而在金融資料體系中,分析型的系統相對交易系統,更適合採用這些框架。

風險控制是金融企業核心能力,風控與徵信變成金融大資料的主場景。獲取足夠的使用者行為資料,建立合理的評估模型,有助於企業在使用者金融活動的整個生命週期規避風險,提公升服務水平。現行的金融技術體系,無法從技術上確保交易主體間的相互信任,需要依賴第三方徵信主體參與,而鑑於資料碎片化、交易壁壘與隱私保護等因素,基於大資料的徵信,目前以至未來很長時間,還有較大的改進空間。

區塊鏈技術的繁榮,以及與金融科技的逐步融合,有巨大的潛力改變現有的金融資料體系。區塊鏈被認為是技術保證信任的價值網路,或者說是業務網際網路。業務實體可以相互信任的處理之間的金融交易,而無需中心徵信機構的參與。鏈上的資料以加密方式參與分布式事務/容錯(paxos/pbft),確保不可篡改的一致性。強的分布式與一致性,需以犧牲系統效能為代價,因而較為適合替代現有金融系統中的資料骨幹網路。而對於類似每秒10幾萬次交易的支付系統則是不適合的。

雲支撐大資料

大資料是資源密集型的系統,對於儲存、計算、網路等核心it資源需求強勁,自然成為雲計算最佳支撐領域。目前主流的雲平台都配有自成體系的大資料系統,滿足企業大資料處理端到端的需求,也就是從資料採集獲取、同步載入、整合清洗、安全管控、分析建模、視覺化、機器學習、深度學習一整套支撐工具與系統。多數基於開源的體系定製並優化,典型的如亞馬遜aws 上的emr,微軟azure上的hdinsight等, 都基於apache hadoop。 這些能力通常具有非常強的伸縮性,多租戶共享,適應企業忙時閒時的不同需求,並且按照用量計費,用多少付多少費用。這些系統和工具多以平台即服務(paas)+ 設施即服務(iaas)方式在公有雲上提供。

考慮到不少企業,特別是金融企業的資料體系,具有非常強的資料安全與監管要求,不少雲平台提供商將其公有雲上的資料能力,也整合打包到其相應的私有雲商業軟體套件之中,例如微軟私有雲套件,阿里雲私有雲中的大資料平台等。這些商業軟體套件按照企業使用者的要求,部署到企業自建自營的資料中心中,提供類似公有雲上的端到端的資料能力。企業使用者獲得了對平台、對資料自主控制的能力,損失了相應的彈性與及時更新。

目前國內大型企業多採用公有雲與私有雲相結合的混合雲方式,將核心的資料系統控制在自家的資料中心中,將部分前端業務系統與外圍業務系統部署到公有雲上,以獲取一定的彈性與靈活性,節約成本。

從技術層面講,目前主流雲平台多以提供資源的虛擬化為基礎,將儲存、cpu、記憶體、網路以虛擬機器或容器的方式實現邏輯隔離,基於邏輯上的隔離共享與排程支援上層的資料處理體系,如資料倉儲、分布式大資料框架(hadoop, spark等)、機器學習模型與演算法等。並且依據大資料應用負載的不同,針對計算密集,磁碟io密集或網路io密集的不同特點,做不同的優化,甚至拋開虛擬化,直接在硬體系統上部署大資料框架。

人工智慧平台

年過半百的人工智慧,經歷兩次發展低谷到近十年來再次爆發,與大資料在深度與廣度上的積累,以及相關處理技術的長足進步密不可分。人工智慧依賴機器學習,垂直領域不斷豐富的資料積累,為機器學習提供了原材料;開源的水平擴充套件的大資料框架為各種複雜的機器學習演算法提供了**低廉的算力,從而推動了人工智慧在包括搜尋、廣告、語音識別、影象識別、自然語音理解等等領域的質的飛躍。

機器學習就是發現用來學習的資料集裡面隱含的規律的過程,簡單情況下,可以將這種隱含的規律描述為某種數學函式,給定某些輸入,可以得到某些輸出。但大部分時候,機器學習的結果無法直觀表達為函式,而是乙個可以執行的計算模型,從此種意義上看,是資料產生了程式邏輯,以前這些邏輯只能由程式設計師編碼實現。目前這些機器學出來的模型廣泛應用在許多不同領域,來做分群、分類或者**。

綜上所述,隨著企業與網際網路資料技術不斷融合,大資料平台技術呈現出兩大發展脈絡:(1)沿著從依託程式設計、專注物理底層邏輯,到深度依賴資料、資料產生業務邏輯的脈絡不斷進化。(2)新型的人機互動方式,則將大資料平台技術能力服務化,而平台支撐的機器學習演算法的革新,則為這種服務持續賦予智慧型。可以預見,不遠的將來,智慧型化大資料平台將成為公司數位化經營決策的中樞神經,每乙個公司都會有自己的數字大腦。

自動摘要技術發展

自動摘要技術 發展歷史 20世紀50年代,自動摘要 和機器翻譯 被提出 對給定文字提取包含最重要資訊的描述 摘要。乙個代表性研究由h.p.luhn提出,用程式對機器可讀形式的完整文字進行分析,用詞頻及其分布的統計資訊來計算重要性度量的方式。1969年,harold p edmundson 描述了乙個...

PLC技術發展歷史

plc即可程式設計控制器 programmable logic controller,plc 自1969年入世以來,逐漸成為了使用最多 應用最廣的工業控制器,目前已有多個分支。plc控制由中心處理單元cpu 儲存器電源單元等組成,抗干擾能力強。其是採用一類可程式設計的儲存器,專為工業現場應用而設計,...

應用部署技術發展簡史

網際網路企業生產環境的應用部署所經歷的過程,大致可分三個階段 用純粹的物理機部署應用,這是所有早期物聯網公司必然經歷的乙個階段。一台伺服器,至少32核cpu 64g記憶體,如果只部署乙個應用,那就太浪費了。於是,多個應用程序,db,快取程序等等都部署在同乙個機器上。這樣部署固然能高效的利用好昂貴的物...