一.spark on yarn historyserver(執行完畢日誌)
1.配置yarn日誌引數:yarn-site.xml
yarn.log-aggregation-enable
true
yarn.log.server.url
修改spark的spark-defaults.conf
spark.yarn.historyserver.address
2. 啟動 yarn &mrhistory server
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver
3. 啟動 spark 的historyserver
cd/opt/modules/spark
sbin/start-history-server.sh
二.spark on yarn 日誌聚合 (執行時日誌)
方式一:預設埠,修改相應配置檔案
1. 配置spark-env.sh
spark_history_opts="-dspark.history.fs.logdirectory=hdfs:"
(有引號)
2. 建立hdfs對應的路徑
hdfsdfs -mkdir -p /user/spark/eventlogs
3.修改spark-defaults.conf
spark.eventlog.enabled true
spark.eventlog.dir hdfs:
方式二:如果很多配置不是預設埠,可以開啟**服務(**不僅可以開啟實時監控,也同時開啟了 historyserver)
1.配置:yarn-site.xml
yarn.web-proxy.address
master-yyft:18888
2.啟動** yarn-daemon.sh start proxyserver
三.補充 hadoop 的historyserver
1.修改mapred-site.xml
mapreduce.jobhistory.address
hadoop-senior01.ibeifeng.com:10020
hadoop-senior01.ibeifeng.com:19888
2.啟動mr-jobhistory-daemon.shstart historyserver
實時任務頻寬控制
proc sys kernel sched rt runtimes us,預設 950000 proc sys kernel sched rt period us,預設 1000000 在使用該功能時,當實時任務的頻寬用盡時 sched rt runtime us 核心會將對應的實時執行佇列rt r...
實時任務 offset管理
背景 目前我們執行的實時任務基本上都是使用sparkstreaming,當然後面考慮使用最近比較火的flink,看了部分資料介紹後,我感覺sparkstreaming相對於flink,唯一的不足是,sparkstreaming在task排程上損耗了不少效能。flink還沒有深入研究內部實現,flin...
實時任務資料丟失
flink實時任務 從kafka集群讀取源資料 從redis定期全量拉取使用者白名單,然後進行廣播 源資料connect白名單資料,源資料根據白名單資料進行過濾處理 過濾處理完後的資料,http推送 寫redis 寫log等 上線驗證的時候,有些資料丟失,而且比較頻繁,分析可能原因 kafka源資料...