配置一:主要是從目錄獲取資料並將資料寫入hdfs
#定義agent名, source、channel、sink的名稱
a4.sources = r1
a4.channels = c1
a4.sinks = k1
#具體定義source
a4.sources.r1.type = spooldir
a4.sources.r1.spooldir = /home/hadoop/logs
#具體定義channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 10000
a4.channels.c1.transactioncapacity = 100
#定義***,為訊息新增時間戳
a4.sources.r1.interceptors = i1
a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.timestampinterceptor$builder
#具體定義sink
a4.sinks.k1.type = hdfs
a4.sinks.k1.hdfs.path = hdfs://ns1/flume/%y%m%d
a4.sinks.k1.hdfs.fileprefix = events-
a4.sinks.k1.hdfs.filetype = datastream
#不按照條數生成檔案
a4.sinks.k1.hdfs.rollcount = 0
#hdfs上的檔案達到128m時生成乙個檔案
a4.sinks.k1.hdfs.rollsize = 134217728
#hdfs上的檔案達到60秒生成乙個檔案
a4.sinks.k1.hdfs.rollinterval = 60
#組裝source、channel、sink
a4.sources.r1.channels = c1
a4.sinks.k1.channel = c1
配置二:從目錄中讀取資料寫入到日誌檔案
#定義agent名, source、channel、sink的名稱
a3.sources = r1
a3.channels = c1
a3.sinks = k1
#具體定義source
a3.sources.r1.type = spooldir
a3.sources.r1.spooldir = /root/logs
#具體定義channel
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactioncapacity = 100
#具體定義sink
a3.sinks.k1.type = logger
#組裝source、channel、sink
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1
配置三:從命令列中得到資料並輸出到日誌檔案
#bin/flume-ng agent -n a2 -f /home/hadoop/a2.conf -c conf -dflume.root.logger=info,console
#定義agent名, source、channel、sink的名稱
a2.sources = r1
a2.channels = c1
a2.sinks = k1
#具體定義source
a2.sources.r1.type = exec
a2.sources.r1.command = tail -f /home/hadoop/a.log
#具體定義channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactioncapacity = 100
#具體定義sink
a2.sinks.k1.type = logger
#組裝source、channel、sink
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1
配置四:監聽某乙個埠將流經埠的資料捕獲寫入到日誌
#定義agent名, source、channel、sink的名稱
a1.sources = r1
a1.channels = c1
a1.sinks = k1
#具體定義source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 8888
#具體定義channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactioncapacity = 100
#具體定義sink
a1.sinks.k1.type = logger
#組裝source、channel、sink
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
大資料面試常問問題 HANameNode
通過zkfczkfc定期向它所監控的namenode傳送健康探測命令。如果namenode宕機沒有傳送心跳,zkfc就認為它不健康,就會在zk中給其標記上乙個不健康的標記。zkfc同時也會給健康的namenode建立乙個會話,假設這個namenode同時還是active狀態,就會給其在zk中建立乙個...
學大資料要學哪些演算法 大資料分析都有哪些常見的演算法
隨著網際網路的不斷發展,大資料分析演算法讓眾多企業在使用者分析上獲得了很大的突破。今天,我們就一起來了解一下,資料分析領域常見的演算法都有哪些。1.線性回歸 線性回歸可能是統計學和機器學習中知名和易理解的演算法之一。由於 建模主要關注小化模型的誤差,或者以可解釋性為代價來做出準確的 我們會從許多不同...
大資料之簡介
要理解大資料這一概念,首先要從 大 入手,大 是指資料規模,大資料一般指在10tb 1tb 1024gb 規模以上的資料量。大資料同過去的海量資料有所區別,其基本特徵可以用4個v來總結 vol ume variety value和veloc ity 即體量大 多樣性 價值密度低 速度快。大資料技術是...