Kafka到Hdfs的資料Pipeline整理

找時間總結整理了下資料從kafka到hdfs的一些pipeline，如下

1> kafka -> flume –> hadoop hdfs

常用方案,基於配置,需要注意hdfs小檔案效能等問題.

2> kafka -> kafka hadoop loader ->hadoop hdfs

kafka hadoop loader通過為kafka topic下每個分割槽建立對應的split來建立task實現增量的載入資料流到hdfs,上次消費的partition offset是通過zookeeper來記錄的.簡單易用.

3> kafka -> kaboom -> hadoop hdfs

kaboom是乙個借助krackle(開源的kafka客戶端，能極大的減少物件的建立，提高應用程式的效能)來消費kafka的topic分割槽資料隨後寫如hdfs,利用curator和zookeeper來實現分布式服務,能夠靈活的根據topic來寫入不同的hdfs目錄.

4> kafka -> kafka-connect-hdfs -> hadoop hdfs

confluent的kafka connect旨在通過標準化如何將資料移入和移出kafka來簡化構建大規模實時資料管道的過程。可以使用kafka connect讀取或寫入外部系統，管理資料流並擴充套件系統，而無需編寫新**.

5> kafka -> gobblin -> hadoop hdfs

gobblin是linkedin開源的乙個資料攝取元件.它支援多種資料來源的攝取，通過併發的多工進行資料抽取，轉換，清洗，最終載入到目標資料來源.支援單機和hadoop mr二種方式，而且開箱即用，並支援很好的擴充套件和二次開發.