flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。
使用tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz命令解壓,並使用mv命令將其重新命名,然後刪除tar.gz包。
vi /etc/profile,配置完之後,我們使用source命令生效配置檔案。
# agent1表示**名稱
agent1.sources=source1
agent1.sinks=sink1
agent1.channels=channel1
# 配置source1
agent1.sources.source1.type=spooldir
agent1.sources.source1.spooldir=/usr/local/logs
agent1.sources.source1.channels=channel1
agent1.sources.source1.fileheader = false
agent1.sources.source1.interceptors = i1
agent1.sources.source1.interceptors.i1.type = timestamp
# 配置channel1
agent1.channels.channel1.type=file
agent1.channels.channel1.checkpointdir=/usr/local/logs_tmp_cp
agent1.channels.channel1.datadirs=/usr/local/logs_tmp
# 配置sink1
flume-ng agent -n agent1 -c conf -f /usr/local/flume/conf/flume-conf.properties -dflume.root.logger=debug,console
新建乙份檔案,移動到/usr/local/logs目錄下,flume就會自動上傳到hdfs的/logs目錄中。
1、新建flume_test.txt檔案
2、移動到/usr/local/logs目錄下,控制台輸入如下:
3、hdfs logs目錄下生成乙份檔案。
Spark專案實戰經驗
auto.offset.reset 啟動時讀取的偏移量。如果是需要歷史資料那麼設定成earliest 如果不需要消費歷史資料那麼設定成latest 1 如果自動提交偏移量 spark streaming消費到資料之後立馬提交,那麼就會有乙個問題 提交偏移量成功 處理失敗了,那麼spark strea...
Spark簡單案例實戰
一.給定一組鍵值對 spark 2 hadoop 6 hadoop 4 spark 6 鍵值對的key表示圖書名稱,value表示每天圖書銷量,請計算出每個鍵對應的平均值,也就是每種圖書每天的平均銷量。1.如下 val book array spark 2 hadoop 6 hadoop 4 spa...
spark 簡單實戰 Spark線性回歸簡單例子
這個課程以乙個專案來講解spark中怎麼使用線性回歸 邏輯回歸以及svm等演算法模型。專案主要是 航班的延遲時間,專案是按照如下的流程來講解 在模型訓練地方,詳細講解了交叉驗證的功能 老湯人工智慧 機器學習課程體系分為三部分 機器學習一之數學基礎 從微積分和線性代數兩個方面講解機器學習需要的數學知識...