flume的安裝非常簡單,只需要解壓的tar.gz的包後,就可以啟動
大資料之資料採集引擎flum
flum是用來採集檔案的比如.log檔案,也可以指定乙個目錄
flum由三個元件組成,分別是:source 、channel、sink
source元件是用來採集日誌
channel元件是用來緩衝日誌的
sink元件是用來儲存日誌的
我們把這三個元件共同組成框架叫做agent=source+channel+sink
sink元件可以吧採集到日誌資訊儲存到hdfs、hive、hbase等
接下來我們就為這個agent來配置檔案:
#bin/flume-ng agent -n a4 -f myagent/a4.conf -c conf -dflume.root.logger=info,console
#定義agent名, source、channel、sink的名稱
a4.sources = r1
a4.channels = c1
a4.sinks = k1
#具體定義source
a4.sources.r1.type = spooldir
a4.sources.r1.spooldir = /root/training/logs
#定義***,為訊息新增時間戳
a4.sources.r1.interceptors = i1
a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.timestampinterceptor$builder
#具體定義channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 10000
a4.channels.c1.transactioncapacity = 100
#具體定義sink
a4.sinks.k1.type = hdfs
a4.sinks.k1.hdfs.path = hdfs:
a4.sinks.k1.hdfs.fileprefix = events-
a4.sinks.k1.hdfs.filetype = datastream
#不按照條數生成檔案
a4.sinks.k1.hdfs.rollcount = 0
#hdfs上的檔案達到128m時生成乙個檔案
a4.sinks.k1.hdfs.rollsize = 134217728
#hdfs上的檔案達到60秒生成乙個檔案
a4.sinks.k1.hdfs.rollinterval = 60
#組裝source、channel、sink
a4.sources.r1.channels = c1
a4.sinks.k1.channel = c1
第一行就是啟動命令
啟動後可以自動收集日誌,但是只能整個檔案整個檔案的收取,並不是當我寫完一條我就收集一條
在收集完後的日誌後把原日誌檔案後新增乙個complete的字尾
大資料 資料採集平台之Scribe
apache flume 詳情請看文章 大資料 資料採集平台之apache flume fluentd 詳情請看文章 大資料 資料採集平台之fluentd logstash 詳情請看文章 大資料 資料採集平台之logstash apache chukwa 詳情請看文章 大資料 資料採集平台之apac...
剖析大資料平台的資料採集
我在一次社群活動中做過一次分享,演講題目為 大資料平台架構技術選型與場景運用 在演講中,我主要分析了大資料平台架構的生態環境,並主要以資料來源 資料採集 資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平台的理解。本文講解資料採集部分。資料採集的設計,幾...
初始大資料 02 日誌採集大資料和爬蟲採集大資料
此圖借鑑 關鍵字 從整體上描述 agent 中 sources sinks channels 所涉及的元件 詳細指定agent中每個sources,sinks 和channels的具體實現 通過 channel 將 source 與 sink 連線起來。啟動 agent 的 shell 操作 網路爬...