Kylin 實時OLAP如何做CheckPoint

一、新建cube第一次消費的情況：

此種情況根據kylin.stream.consume.offsets.latest配置，true表示從最新的資料開始消費，false表示從最早的資料開始消費，預設為true.

二、disable cube再enable的情況

1、清空zk節點上此cube的資料

（/kylin/kylin:kylin_metadata/stream/cubes/cubename）；

2、刪除此cube在 hdfs上的資料(/user/kylin/kylin_prod-kylin_metadata/stream/cubename)；

3、刪除所有receiver節點上此cube的資料（通過http呼叫receiver的admincontroller.unassign停止消費此cube資料、刪除節點上此cube數==/home/hadoop/data/kylin_prod/inner/cubename==)

1、在zk上建立此cube的節點

（/kylin/kylin:kylin_metadata/stream/cubes/cubename）;

2、計算此cube的assignment(分配到那幾個replicatset等);

3、呼叫分配給此cube的所有receiver進行資料消費

（通過http呼叫receiver.admincontroller.assign方法）：

3.1、確定kafka消費起始點：獲取本地checkpoint(由於本地資料之前disable的時候已經被刪除，所以為空)，獲取remote的checkpoint（最後乙個ready 的segment的checkpoint），具體**參見（kafkasource.setupconnectorfromcheckpoint方法）；

3.2、確定會處理的最小時間minaccepteventtime，latestremotesegment.gettsrange().end.v有值則此值作為最小時間，否則根據配置的cube.getdescriptor().getpartitiondatestart()為最小時間，否則為0,參見**streamserver.createnewconsumer方法；

3.3、啟動kafkaconsumer開始消費，參見streamingconsumerchannel.start()方法：kafkaconnector.open方法設定消費起始點，繫結topic和要消費的此topic的partition、streamingconsumerchannel.run()開始真正拉取資料並消費並儲存checkpoint到本地。

Kylin 實時OLAP如何做CheckPoint

如何做研究

如何做專案

C 是如何做爬蟲的

Kylin 實時OLAP如何做CheckPoint

如何做研究

如何做專案

C 是如何做爬蟲的

相關推薦