1.flume版本是1.8
關於flume的各個source channel sink選型 注意看看官網
source sink 選型。看你是t+1還是實時,是監控目錄還是tail -f 檔案。
具體優缺點看這篇部落格
我這裡選之前選spooldir ,監控目錄一旦目錄中有新檔案缺點是一旦監控的目錄中有新的檔案可以讀,但這個個檔案就不能寫因此做不到準實時。
選用taildir 實時讀,但要注意解決多個小檔案問題,這時就要看引數怎麼配置。在hdfs上生成的檔案滾動方式設定,我們是按大小滾動,注意其他的滾定方式就要設定為0。
taildir_logtohdfs.properties
#agent_name
read.sources = r1
read.sinks = k1
read.channels = c1
#source的配置
# source型別
read.sources.r1.type = taildir
# 元資料位置,可以斷點續傳。
read.sources.r1.positionfile = /usr/local/flume-1.8.0/conf/taildir_position.json
# 監控的目錄
read.sources.r1.filegroups = f1
read.sources.r1.filegroups.f1 = /data/logs/read/.*log
read.sources.r1.fileheader = true
#sink的配置
read.sinks.k1.type = hdfs
read.sinks.k1.hdfs.uselocaltimestamp = true
#注意這裡最好要加小時,這時就可以h+1入庫,要不然load進庫沒有會報錯。
read.sinks.k1.hdfs.path = hdfs:
read.sinks.k1.hdfs.fileprefix = read_access
read.sinks.k1.hdfs.filesuffix = .log
read.sinks.k1.hdfs.rollsize = 134217728
read.sinks.k1.hdfs.rollcount = 0
read.sinks.k1.hdfs.rollinterval = 0
read.sinks.k1.hdfs.writeformat = text
read.sinks.k1.hdfs.filetype = datastream
read.sinks.k1.hdfs.idletimeout = 120
read.sinks.k1.hdfs.minblockreplicas = 1
#channel的配置
read.channels.c1.type = memory
read.channels.c1.capacity = 100000
read.channels.c1.transactioncapacity = 100000
#用channel鏈結source和sink
read.sources.r1.channels = c1
read.sinks.k1.channel = c1
啟動命令
nohup bin/flume-ng agent -n read -c conf -f /usr/local/flume-1.8.0/conf/taildir_logtohdfs.properties &
Flume 生產配置
1.flume安裝位置 10.96.183.54 home hadoop flume 1.7.0 2.配置文件 aoi.properties aoi.channels c1 aoi.sources r1 aoi.sinks k1 aoi.sources.r1.type spooldir aoi.so...
flume配置模板
root server 21 apache flume 1.6.0 bin cat test.properties 01 flume netcat test agent name a1 source netcat channel memory sink logger,local console 01...
Flume常用配置
flume常用配置4 taildir.source memory.channel hdfs.sink 以下配置基於版本apache flume 1.8.0 bin 我們假定已經對flume有一定了解,並且對flume 的各個元件有一定了解。我們演示乙個基本的 source 為 taildir源 ch...