1.flume
------------------------------
1.flume源於cloudera公司,用於自己公司日常資料生產收集, flume og,
2.flume ng,由apache進行維護
3.flume是一種分布式,可靠且可用的服務,用於有效地收集,聚合和移動大量日誌資料
.2.flume的組成
----- -------------------------
1.agent;**,每乙個**都是乙個
單獨的jvm程序2.source:組成agent的重要元件之一,用於收集日誌
3.channel:組成agent的重要元件之一,用於日誌的封裝和傳遞,本身是乙個管道
4.sink:組成agent的重要元件之一,用於資料的儲存(資料)的下沉點)
5.event:事件,是channel中傳的資料型別,
包括兩部分:
一部分是header:可以設定資料的攔截資訊,本身是map(string,string)
一部分是body:用於記錄日誌資料
3.flume的版本選擇
-------------------------------
1.如果flume和kafka0.8版本整合,需選擇1.6版本
4.flume的安裝
-------------------------- ----
2.tar包
3.配置flume的環境變數
4.配置flume-conf.properties檔案
#example.conf:單節點flume配置
#命名此**上的元件
a1.sources = r1
a1.sinks = k1
a1.channels = c1
#描述/配置源
a1.sources.r1.type = netcat#必要引數
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
#描述接收器
a1.sinks.k1.type = logger
#使用緩衝記憶體中事件的通道
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactioncapacity = 100
#將源和接收器繫結到通道
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
5.啟動flume 服務;
flume-ng agent -n a1 -c~ / soft / flume / conf / -f~ / soft / flume / conf / flume-******.properties -dflume.root.logger = info,console
6.如果有多個資料來源監聽,需以空格將每乙個資料來源進行分隔
5.flume的source和sink的使用
----------------
a1.sources = r1
a1.sinks = k1
a1.channels = c1
#描述/配置源
a1.sources.r1.type = exec
a1.sources.r1.command = tail -f /home/hadoop/a.log#
描述接收器
a1.sinks.k1.type = hdfs
a1 .sinks.k1.hdfs.path = hdfs:// master:8020 / flume / events /%y-%m-%d /%h%m /%s
a1.sinks.k1.hdfs.fileprefix = events-
a1 .sinks.k1.hdfs.uselocaltimestamp = true
#使用乙個緩衝記憶體中事件的通道
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactioncapacity = 100
#將源和接收器繫結到通道
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
1.flume
------------------------------
1.flume源於cloudera公司,用於自己公司日常資料生產收集, flume og,
2.flume ng,由apache進行維護
3.flume是一種分布式,可靠且可用的服務,用於有效地收集,聚合和移動大量日誌資料
.2.flume的組成
----- -------------------------
1.agent;**,每乙個**都是乙個
單獨的jvm程序2.source:組成agent的重要元件之一,用於收集日誌
3.channel:組成agent的重要元件之一,用於日誌的封裝和傳遞,本身是乙個管道
4.sink:組成agent的重要元件之一,用於資料的儲存(資料)的下沉點)
5.event:事件,是channel中傳的資料型別,
包括兩部分:
一部分是header:可以設定資料的攔截資訊,本身是map(string,string)
一部分是body:用於記錄日誌資料
3.flume的版本選擇
-------------------------------
1.如果flume和kafka0.8版本整合,需選擇1.6版本
4.flume的安裝
-------------------------- ----
2.tar包
3.配置flume的環境變數
4.配置flume-conf.properties檔案
#example.conf:單節點flume配置
#命名此**上的元件
a1.sources = r1
a1.sinks = k1
a1.channels = c1
#描述/配置源
a1.sources.r1.type = netcat#必要引數
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
#描述接收器
a1.sinks.k1.type = logger
#使用緩衝記憶體中事件的通道
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactioncapacity = 100
#將源和接收器繫結到通道
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
5.啟動flume 服務;
flume-ng agent -n a1 -c~ / soft / flume / conf / -f~ / soft / flume / conf / flume-******.properties -dflume.root.logger = info,console
6.如果有多個資料來源監聽,需以空格將每乙個資料來源進行分隔
5.flume的source和sink的使用
----------------
a1.sources = r1
a1.sinks = k1
a1.channels = c1
#描述/配置源
a1.sources.r1.type = exec
a1.sources.r1.command = tail -f /home/hadoop/a.log#
描述接收器
a1.sinks.k1.type = hdfs
a1 .sinks.k1.hdfs.path = hdfs:// master:8020 / flume / events /%y-%m-%d /%h%m /%s
a1.sinks.k1.hdfs.fileprefix = events-
a1 .sinks.k1.hdfs.uselocaltimestamp = true
#使用乙個緩衝記憶體中事件的通道
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactioncapacity = 100
#將源和接收器繫結到通道
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
flume簡單認識
第一次寫部落格,不知到如何寫好這篇部落格,有不足和錯誤的地方希望多多指出,共同交流進步。下面就開始說一說我所了解的flume這個框架,flume是個資料採集框架。當然,先要了解資料的 有哪些,才能知道flume是如何來採集資料的。好,下面我們就先來看看資料的 有哪些 有web伺服器產生的log日誌檔...
flume簡單案例
從指定網路埠輸出資料到控制台 編寫example.conf檔案在flume的conf資料夾下 name the components on this agent a1.sources r1 a1.sinks k1 a1.channels c1 describe configure the sourc...
Flume的特點介紹
flume 特點 1 可靠性 當節點出現故障時,日誌能夠被傳送到其他節點上而不會丟失。flume提供了三種級別的可靠性保障,從強到弱依次分別為 1 end to end 收到資料agent首先將event寫到磁碟上,當資料傳送成功後,再刪除 如果資料傳送失敗,可以重新傳送。2 store on fa...