1.1、選擇實時計算平台:依據專案的效能指標要求(latency,throughput等),在已有的實時計算平台:storm spark flink進行選擇
1.2主要的開發運維過程:
現在的架構是標準lamda架構,離線部分由spark sql + datax組成。現在使用的是kv儲存系統aerospike,跟redis的主要區別是使用ssd作為主存,我們壓測下來大部分場景讀寫效能跟redis在同乙個資料量級。
實時部分:使用flink作為計算引擎,介紹一下使用者的使用方式:
使用者完成上面的操作後,平台將所有資訊寫入到json配置檔案。下一步平台將配置檔案和之前準備好的flinktemplate.jar(包含所有平台所需的flink功能)提交給yarn,啟動flink job。
1)平台功能展示-資料來源註冊
2)實時特徵編輯-基本資訊
3)實時特徵編輯-資料來源選擇
4)實時特徵編輯-sql計算
5)實時特徵編輯-選擇輸出
我們下面乙個我們說一下我們選擇flink來做這個特徵平台的原因。
分為三個維度:最高延遲、容錯、sql功能成熟度
2、相容開發:flink現在沒有對aerospike提供讀寫支援,所以需要二次開發
3、碰到的坑
當前效果:將實時特徵上線週期從原平均3天-5天降至小時級。未來規劃:
下一步的規劃是通過sql或者dsl來描述模型部署和模型訓練
基於flink快速開發實時TopN程式
topn 是統計報表和大屏非常常見的功能,主要用來實時計算排行榜。流式的topn可以使業務方在記憶體中按照某個統計指標 如出現次數 計算排名並快速出發出更新後的排行榜。我們以統計詞頻為例展示一下如何快速開發乙個計算topn的flink程式。flink支援各種各樣的流資料介面作為資料的資料來源,本次d...
基於 Flink 的實時數倉生產實踐
資料倉儲的建設是 資料智慧型 必不可少的一環,也是大規模資料應用中必然面臨的挑戰。在智慧型商業中,資料的結果代表了使用者反饋 獲取資料的及時性尤為重要。快速獲取資料反饋能夠幫助公司更快地做出決策,更好地進行產品迭代,實時數倉在這一過程中起到了不可替代的作用。如何更好的建設實時數倉 有哪些優秀的生產實...
基於 Flink 的實時數倉生產實踐
基 tel13460277366id nnbtw988於 flink 的實時數倉生產實踐簡介 資料倉儲的建設是 資料智慧型 必不可少的一環,也是大規模資料應用中必然面臨的挑戰。在智慧型商業中,資料的結果代表了使用者反饋 獲取資料的及時性尤為重要。快速獲取資料反饋能夠幫助公司更快地做出決策,更好地進行...