大資料BigData總結筆記 三 Flume

2021-10-03 02:51:21 字數 1275 閱讀 2060

分布式日誌收集工具

flume是一種分布式,可靠且可用的服務,用於有效地收集,聚合和移動大量日誌資料。
具有基於流資料流的簡單靈活的體系結構。

具有可調整的可靠性機制以及許多故障轉移和恢復機制,具有強大的功能和容錯能力。

webserver --> agent(source-channel-sink) --> hdfs

事件

flume在接收到日誌資料之後會將其封裝成乙個個event -- 統一格式 好處理 加一些資訊

一般一條日誌對應乙個event 字串拼接 成為json格式

格式:

**

代表了flume接收,封裝,承載,傳輸日誌資料的整個過程 包含下面三個部分

資料來源

負責將日誌接收,並封裝為event;然後輸出到channel中進行快取

提供訪問埠

提供訪問許可權

被動接收資料

通道(快取)

被動接收source傳來的資料,進行快取,等待sink的消費.

一般使用記憶體資源作為快取(記憶體訪問速度快方便)

接收資料和輸出資料都是被動的

這時候就要注意,在建立快取時必須要設定它的最大值(jvm設定了最大閾值 才會出現記憶體溢位異常),不設定伺服器會宕機

攢一段時間的event到達128m 通過sink 傳到hdfs,hdfs就不要切割了

輸出資料

指定資料輸出位置或流向,消費channel中的快取,儲存到hdfs中

為什麼webserver不能直接將資料傳送給hdfs?為什麼要使用flume?

1.hdfs不適合儲存大量的小檔案

2.不推薦使用追加功能

3.hdfs不能直接接受資料

4.flume對資料進行優化快取 (水庫)

多級流動 

扇入 多個flume流入乙個flume

扇出 乙個flume流向多個flume

基於flume的多級流動,扇入扇出,可以實現非常複雜的拓撲結構,適應處理幾乎任何場景的資料。

dag技術(有向無環圖):多個運算元+資料的流向+沒有閉環

在流式資料處理中,必須要保證拓撲就夠為有向無環圖,閉環會導致資料堵塞。

運算元:乙個演算法的某乙個部分/部件;乙個完整演算法是由多個運算元組成的。

演算法:任何乙個邏輯過程都可以稱為演算法。

讀書筆記 《大資料時代 BIG DATA》

大資料時代 big data 維克托.邁爾 捨恩伯格 肯尼思.庫克耶 著 2014年讀到的一本書,溫故而求知新 大資料,量變到質變。4v volume 大量 variety 多樣 velocity 高速 資料產生的速度 value 價值 單個資料的代價值 樣本 總體 精度不在重要,隨機性更重要 線性...

什麼是大資料(Big Data)

可以從四個方面概括 資料量 volume 處理速度 velocity 多樣性 variety 真實性 veracity 簡稱4v。volume 資料量 資料量大是大資料的比較明顯的特徵,一般是tb級的資料量,並且每天資料的增長量比較大。velocity 速度 要求資料的處理速度比較快,從資料採集 加...

大資料學習之BigData常用演算法和資料結構

大資料學習之bigdata常用演算法和資料結構 1.bloom filter 由乙個很長的二進位制向量和一系列hash函式組成 優點 可以減少io操作,省空間 缺點 不支援刪除,有誤判 如果要支援刪除操作 改成計數布隆過濾器 2.skiplist 跳表 核心思路 由多層組成,每層都是乙個有序鍊錶,最...