1、這裡先啟動hdfs,並在hdfs儲存路徑中新建乙個目錄(/flume)準備存放flume收集的kafka訊息。
$ sbin/start-dfs.sh
2、然後啟動kafka服務,並建立乙個topic(flume-data),然後還可以啟動乙個生產者控制台,準備往flume-data這個topic中生產訊息,讓flume來消費。
start zookeeper(進入kafka安裝目錄)
$ bin/zookeeper-server-start.sh config/zookeeper.properties
start kafka-server
$ bin/kafka-server-start.sh config/server.properties
create topic flume-data
$ bin/kafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 1 --topic topic-bdc-recommend
setup kafka-console-producer
$ bin/kafka-console-producer.sh --broker-list 127.0.0.1:9092 --topic topic-bdc-recommend
3、配置flume,並啟動,等待kafka生產者傳送訊息。
config conf/flume.conf(進入flume安裝目錄)
bin/kafka-console-producer.sh --broker-list 192.168.70.3:9092 --topic topic-bdc-recommend
最後通過hdfs命令列檢視生成的檔案。
當然你也可以選擇使用webui介面:
教程:linux上安裝hadoop集群:
linux上安裝kafka集群:
linux上安裝zookeeper集群:自己google allo去吧
flume實時收集日誌到kafka
flume實時收集日誌 kafka版本0.8.2 1.版本apache flume 1.7.0 bin.tar.gz 解壓後conf 目錄下配置以.conf結尾的檔案如 flume properties.conf 2.配置檔案資訊 sources 資料來源每增加乙個新增即可 a1.sources r...
flume實時讀取檔案到kafka
背景 需要實時讀取log日誌檔案中的記錄到kafka 1.zookeeper服務需要開啟,檢視zookeeper的狀態,zookeeper的安裝及啟動過程可檢視 root master kafka 2.11 0.11 opt soft zookeeper 3.4.13 bin zkserver.sh...
kafka和flume的對比
摘要 1 kafka和flume都是日誌系統。kafka是分布式訊息中介軟體,自帶儲存,提供push和pull訪問資料功能。flume分為agent 資料採集器 collector 資料簡單處理和寫入 storage 儲存器 三部分,每一部分都是可以定製的。比如agent採用 rpc thrift ...