Spark on YARN時大量jar亂飛情況

2021-10-10 08:25:59 字數 1305 閱讀 2828

在使用spark on yarn的時候會出現jar包亂飛的現象,並且會給出警告提示下面來分析一下這個問題

sparkonyarn的日誌資訊:

warn yarn.client: neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under spark_home.

info yarn.client: uploading resource file:/tmp/spark-a7f4a566-9d21-43cf-8388-41698316838e/__spark_libs__855332709144911684.zip ->

info yarn.client: uploading resource file:/tmp/spark-a7f4a566-9d21-43cf-8388-41698316838e/__spark_conf__9173892461601825482.zip ->

這裡的提示資訊是yarnclient模式下面既沒有設定spark.yarn.jars 也沒有設定spark.yarn.archive 這兩個配置項資訊,然後程式就將spark_home 下面的jar包打包上傳到hdfs上面的指定路徑,用完之後又刪掉了,這兩個檔案的大小是相對來說比較大的這個是很消耗資源和時間的。

我們檢視這兩個檔案大小:

1、把spark/jars下的jar包打成zip包(防止小檔案過多,影響hdfs效能)

cd jars 

zip sparkjars.zip *.jar

2、上傳到hdfs

hadoop fs -put sparkjars.zip /lib
3、在spark-default配置中指定jar包的位址,也可以在啟動時候 -conf 指定

vi spark-default.conf

spark.yarn.archive hdfs://mycluster/lib/sparkjars.zip

info yarn.client: source and destination file systems are the same. not copying hdfs://mycluster/lib/sparkjars.zip
根據日誌資訊得知現在並不會copy這些資訊到hdfs上面,而是直接進行讀取hdfs上面的jar包資訊

安裝OpenCv時出現大量紅字

今天在安裝python下的opencv時,總會出現一大片紅色字。錯誤如圖 在這裡插入描述 明明是按照步驟來的,後來發現是網速限制,需要乙個映象源就可以解決。pip install opencv python 在這個後面加上 i trusted host pypi.douban.com 就可以了 合起...

Mysql大量插入資料時SQL語句的優化

1 對於myisam型別的表,可以通過以下方式快速的匯入大量的資料。alter table tblname disable keys loading the data alter table tblname enable keys 這兩個命令用來開啟或者關閉myisam表非唯一索引的更新。在匯入大量...

JSP輸出HTML時產生的大量空格和換行的去除方法

在web應用中,如果使用jsp作為view層的顯示模板,都會被空格 空換行問題所困擾.方案一,利用web伺服器的trimspaces功能。tomcat5 以上版本都可以使用,這是最簡單的方法 html view plain copy servlet servlet name jspservlet n...