找時間總結整理了下資料從kafka到hdfs的一些pipeline,如下
1> kafka -> flume –> hadoop hdfs
常用方案,基於配置,需要注意hdfs小檔案效能等問題.
2> kafka -> kafka hadoop loader ->hadoop hdfs
kafka hadoop loader通過為kafka topic下每個分割槽建立對應的split來建立task實現增量的載入資料流到hdfs,上次消費的partition offset是通過zookeeper來記錄的.簡單易用.
3> kafka -> kaboom -> hadoop hdfs
kaboom是乙個借助krackle(開源的kafka客戶端,能極大的減少物件的建立,提高應用程式的效能)來消費kafka的topic分割槽資料隨後寫如hdfs,利用curator和zookeeper來實現分布式服務,能夠靈活的根據topic來寫入不同的hdfs目錄.
4> kafka -> kafka-connect-hdfs -> hadoop hdfs
confluent的kafka connect旨在通過標準化如何將資料移入和移出kafka來簡化構建大規模實時資料管道的過程。可以使用kafka connect讀取或寫入外部系統,管理資料流並擴充套件系統,而無需編寫新**.
5> kafka -> gobblin -> hadoop hdfs
gobblin是linkedin開源的乙個資料攝取元件.它支援多種資料來源的攝取,通過併發的多工進行資料抽取,轉換,清洗,最終載入到目標資料來源.支援單機和hadoop mr二種方式,而且開箱即用,並支援很好的擴充套件和二次開發.
Kafka到Hdfs的資料Pipeline整理
找時間總結整理了下資料從kafka到hdfs的一些pipeline,如下 1 kafka flume hadoop hdfs 常用方案,基於配置,需要注意hdfs小檔案效能等問題.2 kafka kafka hadoop loader hadoop hdfs kafka hadoop loader通...
flume從kafka導資料到hdfs
flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集 聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料 同時,flume提供對資料進行簡單處理,並寫到各種資料接受方 可定製 的能力.利用flume從kafka導資料到hdfs 配置檔案如下 flu...
Kafka傳送訊息到HDFS
本文採用的是kafka0.7.2,安裝好kafka後在kafka的contrib目錄下有關於kafka與hadoop的一系列檔案,我們可以使用hadoop consumer目錄下的指令碼及配置檔案將kafka中某topic的資訊傳送到hdfs中。1.修改test目錄下的test.properties...