.conf檔案的定義
#1 agent
a3.sources = r3 r4
a3.sinks = k3
a3.channels = c3
#2 source
#監控目錄的型別
a3.sources.r3.type = spooldir
#監控目錄的路徑
a3.sources.r3.spooldir = /opt/model/hadoop-2.8.4/logs
#哪個檔案上傳hdfs,然後給這個檔案新增乙個字尾
a3.sources.r3.filesuffix = .completed
a3.sources.r3.fileheader = true
#忽略所有以.tmp結尾的檔案,不上傳(可選)
a3.sources.r3.ignorepattern = ([^ ]*\.tmp)
#監控目錄的型別
a3.sources.r4.type = netcat
a3.sources.r4.bind = bigdata111
a3.sources.r4.port = 44445
# 3 sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://bigdata112:9000/flumeinput/%y%m%d%h
#上傳檔案的字首
a3.sinks.k3.hdfs.fileprefix = tinput-
#是否按照時間滾動資料夾
a3.sinks.k3.hdfs.round = true
#多少時間單位建立乙個新的資料夾
a3.sinks.k3.hdfs.roundvalue = 1
#重新定義時間單位
a3.sinks.k3.hdfs.roundunit = hour
#是否使用本地時間戳
a3.sinks.k3.hdfs.uselocaltimestamp = true
#積攢多少個event才flush到hdfs一次
a3.sinks.k3.hdfs.batchsize = 100
#設定檔案型別,可支援壓縮
a3.sinks.k3.hdfs.filetype = datastream
#多久生成乙個新的檔案
a3.sinks.k3.hdfs.rollinterval = 600
#設定每個檔案的滾動大小大概是128m
a3.sinks.k3.hdfs.rollsize = 134217700
#檔案的滾動與event數量無關
a3.sinks.k3.hdfs.rollcount = 0
#最小副本數
a3.sinks.k3.hdfs.minblockreplicas = 1
# use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactioncapacity = 100
# bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sources.r4.channels = c3
a3.sinks.k3.channel = c3
監控結果
監控bigdata111 44445埠輸入資料
監控hadoop日誌資訊丙上傳到hdfs
2個資料來源採集到的資料合併上傳到bigdata112 hdfs目錄下
檢視hdfs裡面sink進來的具體資料
flume案例 網路資料採集 Flume的配置
開發配置檔案 根據資料採集的需求配置採集方案,描述在配置檔案中 檔名可任意自定義 配置我們的網路收集的配置檔案 在flume的conf目錄下新建乙個配置檔案 採集方案 vim export servers apache flume 1.8.0 bin conf netcat logger.conf ...
flume採集案例
1 採集目錄到hdfs 採集需求 某伺服器的某特定目錄下,會不斷產生新的檔案,每當有新檔案出現,就需要把檔案採集到hdfs中去 根據需求,首先定義以下3大要素 採集源,即source 監控檔案目錄 spooldir 下沉目標,即sink hdfs檔案系統 hdfs sink source和sink之...
Flume(03) Flume採集案例
需求分析 採集需求 某伺服器的某特定目錄 export servers dirfile下,會不斷產生新的檔案,每當有新檔案出現,就需要把檔案採集到hdfs中去。需求分析 通過flume採集資料,最重要的就是配置三大元件。這裡可以通過source來監控檔案目錄。通過channel,來將source採集...