flume是實時日誌收集系統,管道流方式,提供了很多的預設實現。
kafka是可持久化的分布式訊息佇列。
kafka 是乙個通用的系統,可以有許多生產者和消費者共享多個主題。相比之下,flume是乙個專用工具,被設計為旨在往hdfs,hbase傳送資料。如果資料被多個系統消費,使用kafka;如果資料被設計給hadoop使用,使用flume。
使用kafka意味著你準備好了編寫你自己的生產者和消費者**。如果已經存在的flume sources和sinks滿足你的需求,並且你更喜歡不需要任何開發的系統,請使用flume。
flume可以使用***實時處理資料,這些對資料遮蔽或者過量是很有用的。kafka需要外部的流處理系統才能做到。
flume不支援副本事件,如果flume**的乙個節點崩潰了,即使使用了可靠的檔案管道方式,你也將丟失這些事件直到你恢復這些磁碟。如果你需要乙個高可靠行的管道,那麼使用kafka是個更好的選擇。
flume和kafka可以結合起來使用,通常會使用flume + kafka的方式,如果為了利用flume已有的寫hdfs功能,也可以使用kafka + flume的方式。
Flume 之資料寫入hdfs
此案例前提 hadoop已經搭建完成 可用偽分布式 啟動hadoop start all.sh 1.在 home software flume 1.9.0 job 目錄下建立hdfs.template.conf並配置如下資訊 a3.sources r3 a3.sinks k3 a3.channels...
資料中颱之flume
資料的同步的ods層,為離線同步和實時同步,離線同步可以用flinkx,datax 關聯式資料庫 hive 而實時同步可以用flume kafa hive 實時同步到hive後,能使用脫機數倉加工當天資料需求 比如當天每15分鐘 flume先同步到hive的表的分割槽路徑下,再載入到hive表中。先...
大資料系列之Flume 一
flume是乙個分布式的高可靠,可擴充套件的資料採集框架,在大資料工程中我們常常需要日誌進行分析獲取商業價值而flume就是採集多個不同的資料來源,交給資料處理程式同一執行。flume event 乙個資料集,是flume傳輸資料的基本單位 source 接收來自外部的flume event,有很多...