從大資料採集到資料儲存—flume 採集框架:分布式
資料來源(模擬)----資料採集(flume)—資料儲存(hdfs:分布式檔案系統)
flume架構
資料採集:從一端到另一端
檔案source (輸入) -----> channel( 事件的快取)( 相當於水管)—> slink( 輸出)
hdfsf分布式檔案系統)
flume**
#1.定義agent :a2(整體架構相加)
a2.sources=r2
a2.slinks=k2
a2.channel=c2
#2.定義source 輸入(檔案—》exec)命令(tail -f)監控
a2.sources.r2.type=exec
a2.sources.r2.command=tail -f /opt/andy
a2.source.r2.shell=/bin/bash -c
#3.定義slink 輸出(型別—》hdfs)
a2.slinks.k2.type=hdfs
a2.slinks.k2.hdfs.path=hdfs://bigtail:9000/flum/%t%m%d%h
#4.定義channel (快取—》記憶體 |磁碟 )
a2.channel.c2.type=memory
a2.channel.c2.capacity=1000 容量
a2.channel.c2.transactioncapacity=100 批量
#5.雙向鏈結 (鏈結source 與slink)
a2.sources.r2.channels=c2
a2.slinks.k2.channel=c2
大資料1)離線開發–》hadoop、flume、hive、hbase、sqoop、azkaban
2)實時開發–》spark flink
3)專案—》推薦 | 使用者畫像
大資料Flume特性
重要元件 1 channelselector channelselector 的作用就是選出 event 將要被發往哪個 channel。其共有兩種型別,分別是 replicating 複製 和 multiplexing 多路復用 replicatingselector 會將同乙個 event 發往...
大資料 八 Flume部署
如果說大資料中分布式收集日誌用的是什麼,你完全可以回答flume!面試小心問到哦 首先說乙個複製本伺服器檔案到目標伺服器上,需要目標伺服器的ip和密碼 命令 scp filename ip 目標路徑 一 概述 flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集 聚合和傳輸...
flume 架構規劃
基於源頭的資料大小 資料採集的目的地規劃flume拓撲架構 具備緩衝資料峰值的能力 規劃滿足處理瞬時故障所需的容量 flume 單層架構 1.架構簡單 2.配置管理複雜,維護難度大 3.hdfs頻繁寫,小檔案多,hdfs壓力大 4.安全性差 5 flume 公升級比較麻煩 flume 分層架構 1....