flume一句話理解即是關於資料的管道處理開箱即用框架。flume agent的三個基本概念即為:source ,channel,sink.即資料讀取,資料處理,資料寫入三個階段。要作資料處理,首先要解決的是資料收集的問題。如果這個問題解決不了,根本談不上資料的處理。flume的source幫我們解決了這個問題,並且對於資料讀取的吞吐量的問題,也順便給我們解決了。
flume channel作為資料傳輸管理保證了資料在傳輸過程中不丟失,這解決了資料的遺漏的問題;flume sink是資料的寫入。flume它的乙個更牛的是,它可以類似高鐵動車車箱,一節一節的接起來,從而形成乙個有向無環圖,無窮無盡。那麼資料處理能力,則是剛剛的。關於flume的使用,主要是配置檔案的配置。它的框架思路是很容易理解的,使用也很容上手。開源時代就是好啊!
所以我們在使用flume時,只要關注它的三個元件source,channel,sink。主要的工作就是擴充套件flume生態圈中沒有source來讀取我們特殊的儲存裝置上的業務資料;擴充套件flume生態圈中沒有channel來處理我們接收到的資料;擴充套件flume生態圈沒有sink在寫入我們特殊的儲存裝置。然後構建更強大的flume agent 框架來處理相應的業務資料問題。
Flume 入門案例
案例需求 使用 flume 監聽乙個埠,收集該埠資料,並列印到控制台。安裝 netcat 工具 判斷 44444 埠是否被占用 sudo netstat nlp grep 44444在 flume 目錄下建立 job 資料夾並進入 job 資料夾。mkdir job cd job在 job 資料夾下...
Flume 入門案例1
監控埠資料官方案例 1 案例需求 使用 flume 監聽乙個埠,收集該埠資料,並列印到控制台。2 需求分析 在這裡插入描述 3 實現步驟 1.安裝 netcat 工具 yum install y nc2.判斷 44444 埠是否被占用 netstat tunlp grep 444443.建立 flu...
Flume安裝啟動,入門案例
1,上傳解壓 tar zxvf apache flume 1.9.0 bin.tar.gz c ok,完成,解壓即用 2,啟動 根據資料採集的需求配置採集方案,描述在配置檔案中 檔名可任意自定義 啟動命令示例 bin flume ng agent c conf f agentconf taildir...