基於 Flink 的實時數倉生產實踐

2021-10-01 02:59:46 字數 1564 閱讀 7041

資料倉儲的建設是「資料智慧型」必不可少的一環,也是大規模資料應用中必然面臨的挑戰。在智慧型商業中,資料的結果代表了使用者反饋、獲取資料的及時性尤為重要。快速獲取資料反饋能夠幫助公司更快地做出決策,更好地進行產品迭代,實時數倉在這一過程中起到了不可替代的作用。

如何更好的建設實時數倉、有哪些優秀的生產實踐經驗可借鑑?

11月28-30日,flink forward asia 邀請來自 netflix、美團點評、小公尺、oppo、菜鳥等數倉專家,聚焦 flink 實時數倉在資料鏈路中扮演的角色與在智慧型商業中的重要價值,分享實時數倉的應用實踐及平台智慧型化的探索與思考。

魯昊 | 美團點評高階技術專家

美團點評的業務眾多,涉及幾十條業務線;資料量大,處理峰值達到 1.5 億條每秒,每天資料增長量超過 3 萬億條;大多數業務都是交易場景,鏈路長、狀態多樣,業務在數倉建設中面臨著很大挑戰。隨著業務對時效性的要求越來越高,如即時配送、實時營銷,越來越多的業務對實時數倉提出了需求和探索。實時計算團隊調研彙總了多個業務線在實時數倉方面的建設經驗,建設了一站式的實時數倉開發平台,以更好得支援業務發展。

本次分享將主要介紹實時計算的業務應用和規模、多個業務在實時數倉方面的建設情況,以及基於 flink 的實時計算平台和實時數倉平台。

夏軍 | 小公尺流式平台負責人,高階研發工程師

小公尺集群業務線眾多,從資訊流,電商 ,廣告到金融等覆蓋了眾多了領域,小公尺流式平台為小公尺集團各業務提供一體化的流式資料解決方案,主要包括資料採集,資料整合和流式計算三個模組。目前每天資料量達到 2 萬億條,實時同步任務 1.5 萬,實時計算的資料 1 萬億條。伴隨著小公尺業務的發展,流式平台也經歷三次大公升級改造,滿足了眾多業務的各種需求。

最新的一次迭代基於 apache flink,對於流式平台內部模組進行了徹底的重構,同時小公尺各業務也在由 spark streaming 逐步切換到 flink。本次分享主要包括小公尺流式平台架構演進、基於 flink 的新版本流式平台架構設計與產品化,小公尺典型業務應用實踐,未來挑戰與規劃等。

徐振中 | senior software engineer at netflix

在本次演講中,我們將討論一些有趣的案例,分享分布式系統基礎方面的各種挑戰以及解決方案。我們還將討論在開發運維過程中的收穫,對開放式自助式實時資料平台的一些新願景,以及我們對 realtime etl 基礎平台的一些新思考。

賈元喬 | 菜鳥高階資料技術專家

賈元喬老師就職於菜鳥網路**鏈資料團隊,致力於菜鳥**鏈數倉建設、資料產品開發以及資料技術創新。

本次分享主要從資料模型、資料計算、資料服務等幾個方面介紹菜鳥**鏈資料團隊在實時資料技術架構上的演進,以及在**鏈場景中,典型的實時應用場景及flink實現方案。

張俊 | apache flink contributor,oppo大資料平台研發負責人

1.建設背景

2.頂層設計

3.落地實踐

4.未來展望

基於 Flink 的實時數倉生產實踐

基 tel13460277366id nnbtw988於 flink 的實時數倉生產實踐簡介 資料倉儲的建設是 資料智慧型 必不可少的一環,也是大規模資料應用中必然面臨的挑戰。在智慧型商業中,資料的結果代表了使用者反饋 獲取資料的及時性尤為重要。快速獲取資料反饋能夠幫助公司更快地做出決策,更好地進行...

基於FLINK搭建實時數倉技術調研

資料倉儲 data warehouse 是做大資料基本都會去涉及的專案。簡單來說,數倉是資料結構化儲存和查詢,並利用分布式計算引擎進行計算得到業務需要的指標,以支援企業商業智慧型,通過充分挖掘資料價值,形成資料資產。傳統的資料倉儲偏離線處理,通過定時排程實現資料的etl,指標的更新依賴於排程的頻率,...

突然火了的實時數倉

去年開始,實時數倉的概念突然火了。也許是傳統的脫機數倉搞了很多年,技術相對成熟了,因此大家都把注意力放到了挑戰性更高的實時上來 也許是隨著存量市場競爭的到來,對於速度的要求越來越快,t 1已經不能滿足資料的獲取要求了,實時的構建需求也就應運而生了。總之,時效性開始大於分析性。文字簡單介紹實時數倉的一...