大資料之flume flume常用的幾種配置

配置一：主要是從目錄獲取資料並將資料寫入hdfs

#定義agent名， source、channel、sink的名稱

a4.sources = r1

a4.channels = c1

a4.sinks = k1

#具體定義source

a4.sources.r1.type = spooldir

a4.sources.r1.spooldir = /home/hadoop/logs

#具體定義channel

a4.channels.c1.type = memory

a4.channels.c1.capacity = 10000

a4.channels.c1.transactioncapacity = 100

#定義***，為訊息新增時間戳

a4.sources.r1.interceptors = i1

a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.timestampinterceptor$builder

#具體定義sink

a4.sinks.k1.type = hdfs

a4.sinks.k1.hdfs.path = hdfs://ns1/flume/%y%m%d

a4.sinks.k1.hdfs.fileprefix = events-

a4.sinks.k1.hdfs.filetype = datastream

#不按照條數生成檔案

a4.sinks.k1.hdfs.rollcount = 0

#hdfs上的檔案達到128m時生成乙個檔案

a4.sinks.k1.hdfs.rollsize = 134217728

#hdfs上的檔案達到60秒生成乙個檔案

a4.sinks.k1.hdfs.rollinterval = 60

#組裝source、channel、sink

a4.sources.r1.channels = c1

a4.sinks.k1.channel = c1

配置二：從目錄中讀取資料寫入到日誌檔案

#定義agent名， source、channel、sink的名稱

a3.sources = r1

a3.channels = c1

a3.sinks = k1

#具體定義source

a3.sources.r1.type = spooldir

a3.sources.r1.spooldir = /root/logs

#具體定義channel

a3.channels.c1.type = memory

a3.channels.c1.capacity = 1000

a3.channels.c1.transactioncapacity = 100

#具體定義sink

a3.sinks.k1.type = logger

#組裝source、channel、sink

a3.sources.r1.channels = c1

a3.sinks.k1.channel = c1

配置三：從命令列中得到資料並輸出到日誌檔案

#bin/flume-ng agent -n a2 -f /home/hadoop/a2.conf -c conf -dflume.root.logger=info,console

#定義agent名， source、channel、sink的名稱

a2.sources = r1

a2.channels = c1

a2.sinks = k1

#具體定義source

a2.sources.r1.type = exec

a2.sources.r1.command = tail -f /home/hadoop/a.log

#具體定義channel

a2.channels.c1.type = memory

a2.channels.c1.capacity = 1000

a2.channels.c1.transactioncapacity = 100

#具體定義sink

a2.sinks.k1.type = logger

#組裝source、channel、sink

a2.sources.r1.channels = c1

a2.sinks.k1.channel = c1

配置四：監聽某乙個埠將流經埠的資料捕獲寫入到日誌

#定義agent名， source、channel、sink的名稱

a1.sources = r1

a1.channels = c1

a1.sinks = k1

#具體定義source

a1.sources.r1.type = netcat

a1.sources.r1.bind = localhost

a1.sources.r1.port = 8888

#具體定義channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactioncapacity = 100

#具體定義sink

a1.sinks.k1.type = logger

#組裝source、channel、sink

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

大資料面試常問問題 HANameNode

通過zkfczkfc定期向它所監控的namenode傳送健康探測命令。如果namenode宕機沒有傳送心跳，zkfc就認為它不健康，就會在zk中給其標記上乙個不健康的標記。zkfc同時也會給健康的namenode建立乙個會話，假設這個namenode同時還是active狀態，就會給其在zk中建立乙個...

學大資料要學哪些演算法大資料分析都有哪些常見的演算法

隨著網際網路的不斷發展，大資料分析演算法讓眾多企業在使用者分析上獲得了很大的突破。今天，我們就一起來了解一下，資料分析領域常見的演算法都有哪些。1.線性回歸線性回歸可能是統計學和機器學習中知名和易理解的演算法之一。由於建模主要關注小化模型的誤差，或者以可解釋性為代價來做出準確的我們會從許多不同...

大資料之簡介

要理解大資料這一概念，首先要從大入手，大是指資料規模，大資料一般指在10tb 1tb 1024gb 規模以上的資料量。大資料同過去的海量資料有所區別，其基本特徵可以用4個v來總結 vol ume variety value和veloc ity 即體量大多樣性價值密度低速度快。大資料技術是...

大資料之flume flume常用的幾種配置

大資料面試常問問題 HANameNode

學大資料要學哪些演算法 大資料分析都有哪些常見的演算法

大資料之簡介

相關推薦

學大資料要學哪些演算法大資料分析都有哪些常見的演算法