1 spark web ui
spark提供了一些基本的web監控頁面,對於日常監控十分有用。
通過http://master:4040(預設埠是4040,可以通過spark.ui.port修改)我們可以獲得執行中的程式資訊:(1)stages和tasks排程情況;(2)rdd大小及記憶體使用;(3)系統環境資訊;(4)正在執行的executor資訊。
如果想當spark應用退出後,仍可以獲得歷史spark應用的stages和tasks執行資訊,便於分析程式不明原因掛掉的情況。可以開啟history server。配置方法如下:
(1)$spark_home/conf/spark-env.sh
dspark.history.fs.logdirectory=hdfs://master01:9000/directory"
(2)$spark_home/conf/spark-defaults.conf
spark.eventlog.enabled true
spark.eventlog.dir hdfs://hadoop000:8020/directory #應用在執行過程中所有的資訊均記錄在該屬性指定的路徑下
spark.eventlog.compress true
(3)historyserver啟動
$spark_homr/bin/start-histrory-server.sh
(4)historyserver停止
$spark_homr/bin/stop-histrory-server.sh
同時executor的logs也是檢視的乙個出處:
standalone模式:$spark_home/logs
同時通過配置ganglia,可以分析集群的使用狀況和資源瓶頸,但是預設情況下ganglia是未被打包的,需要在mvn編譯時新增-pspark-ganglia-lgpl,並修改配置檔案$spark_home/conf/metrics.properties。
談談spark2以及stream
4月底去參加了qcon 2018北京站,新興資料處理專場有機會聽到了spark structedstreming blink kafka stream三場的分享,整個聽下來有一些感想,剛好最近又在看spark2這塊的一些原始碼設計,所以想著寫點自己的理解。想要解釋為什麼會出現dataset,那就不得...
快速安裝Spark2和Livy0 3
1 把spark 2.4.3 bin hadoop2.7.tgz上傳到 opt software目錄,並解壓到 opt module user01 node1 software tar zxvf spark 2.4.3 bin hadoop2.7.tgz c opt module 2 修改名稱 op...
Spark效能優化 2 運算元調優
本片博文為大家帶來的是運算元調優。二.foreachpartition 優化資料庫操作 三.filter 與 coalesce 的配合使用 四.repartition解決 sparksql 低並行度問題 五.reducebykey 預聚合 在生產環境中,通常使用foreachpartition運算元...