Flume基礎概述

flume的核心就是乙個agent，這個agent對外有兩個進行互動的地方，乙個是接受資料的輸入——source，乙個是資料的輸出sink，sink負責將資料傳送到外部指定的目的地。source接收到資料之後，將資料傳送給channel，chanel作為乙個資料緩衝區會臨時存放這些資料，隨後sink會將channel中的資料傳送到指定的地方—-例如hdfs等，注意：只有在sink將channel中的資料成功傳送出去之後，channel才會將臨時資料進行刪除，這種機制保證了資料傳輸的可靠性與安全性。

在這裡有必要先介紹一下flume中event的相關概念：flume的核心是把資料從資料來源(source)收集過來，在將收集到的資料送到指定的目的地(sink)。為了保證輸送的過程一定成功，在送到目的地(sink)之前，會先快取資料(channel),待資料真正到達目的地(sink)後，flume在刪除自己快取的資料

在整個資料的傳輸的過程中，流動的是event，即事務保證是在event級別進行的。那麼什麼是event呢？—–event將傳輸的資料進行封裝，是flume傳輸資料的基本單位，如果是文字檔案，通常是一行記錄，event也是事務的基本單位。event從source，流向channel，再到sink，本身為乙個位元組陣列，並可攜帶headers(頭資訊)資訊。event代表著乙個資料的最小完整單元，從外部資料來源來，向外部的目的地去。

source 可以接收外部源傳送過來的資料。不同的 source，可以接受不同的資料格式。比如有目錄池(spooling directory)資料來源，可以監控指定資料夾中的新檔案變化，如果目錄中有檔案產生，就會立刻讀取其內容。

channel 是乙個儲存地，接收 source 的輸出，直到有 sink 消費掉 channel 中的資料。channel 中的資料直到進入到下乙個channel中或者進入終端才會被刪除。當 sink 寫入失敗後，可以自動重啟，不會造成資料丟失，因此很可靠。

sink 會消費 channel 中的資料，然後送給外部源或者其他 source。如資料可以寫入到 hdfs 或者 hbase 中。

多級flume

Flume基礎概述

flume的基本概述

SQL基礎概述

Shell基礎概述

Flume基礎概述

flume的基本概述

SQL基礎概述

Shell基礎概述

相關推薦