在使用spark on yarn的時候會出現jar包亂飛的現象,並且會給出警告提示下面來分析一下這個問題
sparkonyarn的日誌資訊:
warn yarn.client: neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under spark_home.
info yarn.client: uploading resource file:/tmp/spark-a7f4a566-9d21-43cf-8388-41698316838e/__spark_libs__855332709144911684.zip ->
info yarn.client: uploading resource file:/tmp/spark-a7f4a566-9d21-43cf-8388-41698316838e/__spark_conf__9173892461601825482.zip ->
這裡的提示資訊是yarnclient模式下面既沒有設定spark.yarn.jars 也沒有設定spark.yarn.archive 這兩個配置項資訊,然後程式就將spark_home 下面的jar包打包上傳到hdfs上面的指定路徑,用完之後又刪掉了,這兩個檔案的大小是相對來說比較大的這個是很消耗資源和時間的。
我們檢視這兩個檔案大小:
1、把spark/jars下的jar包打成zip包(防止小檔案過多,影響hdfs效能)
cd jars
zip sparkjars.zip *.jar
2、上傳到hdfs
hadoop fs -put sparkjars.zip /lib
3、在spark-default配置中指定jar包的位址,也可以在啟動時候 -conf 指定
vi spark-default.conf
spark.yarn.archive hdfs://mycluster/lib/sparkjars.zip
info yarn.client: source and destination file systems are the same. not copying hdfs://mycluster/lib/sparkjars.zip
根據日誌資訊得知現在並不會copy這些資訊到hdfs上面,而是直接進行讀取hdfs上面的jar包資訊 安裝OpenCv時出現大量紅字
今天在安裝python下的opencv時,總會出現一大片紅色字。錯誤如圖 在這裡插入描述 明明是按照步驟來的,後來發現是網速限制,需要乙個映象源就可以解決。pip install opencv python 在這個後面加上 i trusted host pypi.douban.com 就可以了 合起...
Mysql大量插入資料時SQL語句的優化
1 對於myisam型別的表,可以通過以下方式快速的匯入大量的資料。alter table tblname disable keys loading the data alter table tblname enable keys 這兩個命令用來開啟或者關閉myisam表非唯一索引的更新。在匯入大量...
JSP輸出HTML時產生的大量空格和換行的去除方法
在web應用中,如果使用jsp作為view層的顯示模板,都會被空格 空換行問題所困擾.方案一,利用web伺服器的trimspaces功能。tomcat5 以上版本都可以使用,這是最簡單的方法 html view plain copy servlet servlet name jspservlet n...