大資料BigData總結筆記三 Flume

分布式日誌收集工具

flume是一種分布式，可靠且可用的服務，用於有效地收集，聚合和移動大量日誌資料。

具有基於流資料流的簡單靈活的體系結構。

具有可調整的可靠性機制以及許多故障轉移和恢復機制，具有強大的功能和容錯能力。

webserver --> agent(source-channel-sink) --> hdfs

事件 flume在接收到日誌資料之後會將其封裝成乙個個event -- 統一格式好處理加一些資訊一般一條日誌對應乙個event 字串拼接成為json格式

格式:

**

代表了flume接收,封裝,承載,傳輸日誌資料的整個過程包含下面三個部分

資料來源負責將日誌接收,並封裝為event;然後輸出到channel中進行快取提供訪問埠提供訪問許可權

被動接收資料

通道(快取) 被動接收source傳來的資料,進行快取,等待sink的消費. 一般使用記憶體資源作為快取(記憶體訪問速度快方便) 接收資料和輸出資料都是被動的這時候就要注意,在建立快取時必須要設定它的最大值(jvm設定了最大閾值才會出現記憶體溢位異常),不設定伺服器會宕機

攢一段時間的event到達128m 通過sink 傳到hdfs,hdfs就不要切割了

輸出資料

指定資料輸出位置或流向,消費channel中的快取,儲存到hdfs中

為什麼webserver不能直接將資料傳送給hdfs?為什麼要使用flume？

1.hdfs不適合儲存大量的小檔案

2.不推薦使用追加功能

3.hdfs不能直接接受資料

4.flume對資料進行優化快取（水庫）

多級流動扇入多個flume流入乙個flume

扇出乙個flume流向多個flume

基於flume的多級流動，扇入扇出，可以實現非常複雜的拓撲結構，適應處理幾乎任何場景的資料。

dag技術（有向無環圖）：多個運算元+資料的流向+沒有閉環

在流式資料處理中，必須要保證拓撲就夠為有向無環圖，閉環會導致資料堵塞。

運算元：乙個演算法的某乙個部分/部件；乙個完整演算法是由多個運算元組成的。

演算法：任何乙個邏輯過程都可以稱為演算法。

大資料時代 big data 維克托.邁爾捨恩伯格肯尼思.庫克耶著 2014年讀到的一本書，溫故而求知新大資料，量變到質變。4v volume 大量 variety 多樣 velocity 高速資料產生的速度 value 價值單個資料的代價值樣本總體精度不在重要，隨機性更重要線性...

可以從四個方面概括資料量 volume 處理速度 velocity 多樣性 variety 真實性 veracity 簡稱4v。volume 資料量資料量大是大資料的比較明顯的特徵，一般是tb級的資料量，並且每天資料的增長量比較大。velocity 速度要求資料的處理速度比較快，從資料採集加...

大資料學習之bigdata常用演算法和資料結構 1.bloom filter 由乙個很長的二進位制向量和一系列hash函式組成優點可以減少io操作，省空間缺點不支援刪除，有誤判如果要支援刪除操作改成計數布隆過濾器 2.skiplist 跳表核心思路由多層組成，每層都是乙個有序鍊錶，最...

大資料BigData總結筆記 三 Flume