最近遇見乙個流處理的資料嚴重遲到亂序的場景,基於saprk streaming開發的統計使用者頁面停留時間。使用的思想是:遲到資料的時間補償機制。由於spark不支援亂序的支援,所以自行實現了乙個容器儲存一定量的歷史資料,最後對遲到的資料插到歷史容器中,對插入資料的位置進行區域性計算求補償時間最後新增到累計停留時間中,大概這個思想。有時間會分享出來。這個場景要我想起了flink對亂序支援的機制,因為又看了看flink的watermark,將自己的理解記錄下來,方便日後需要時候翻出來看看。
情況1:
情況2:
結論:
補充:說實話看了很多有關flink watermark的博文,可能個人能力薄弱理解能力差的原因吧,看的不是很清晰很直觀。我把我個人覺著看過的覺著不錯的博文寫在下方:
flink watermark原理總結
通過視窗對input按照eventtime進行聚合,使得大體按照event time 發生的順序去處理資料,同時利用watermark來觸發視窗。watermark window機制 watermark是flink為了處理eventtime時間型別 其他時間型別不考慮亂序問題 的視窗計算提出的一種機...
Flink WaterMark 的了解 更新
我來講下 我理解的watermark 一起 如果要去了解乙個東西 我認為需要從以下幾個點去分析 1.是什麼 概念一點 2.解決了什麼問題以及是如何解決的 3.如果去使用 如何下手 4.他會牽扯的一些問題 好了 讓我們去 這個東西 1.首先 watermark 是乙個全域性標籤,本身是乙個時間戳 2....
Flink WaterMark原理與實現
在使用 eventtime 處理 stream 資料的時候會遇到資料亂序的問題,流處理從 event 事 件 產生,流經 source,再到 operator,這中間需要一定的時間。雖然大部分情況下,傳輸到 operator 的資料都是按照事件產生的時間順序來的,但是也不排除由於網路延遲等原因而導致...