在測試中,使用livy去執行spark程式,採用**片段的方式。但是應用在啟動的時候,會把本地的jar檔案上傳到hdfs,然後再從hdfs分發到其它的運算節點,這個很影響效能。
可以在spark的配置檔案spark-defaults.conf配置如下內容
第二個引數,主要是刪除應用jar的快取,防止應用過多,占用hdfs儲存。
/user//.sparkstaging 這個目錄下,一般作為應用jar包的快取目錄.
下面除了標出的紅線,都是livy的jar包
本地指定節點的jar包依賴。spark快取使用的filecache.
sbt打包的jar包提交到spark
使用idea建立sbt專案,建立過程詳見url 在專案根目錄下,開啟終端,輸入sbt命令,會出現 符號,繼續輸入package命令打包完成 使用spark submit命令提交到spark中 本地提交命令 spark submit master 兩條橫線 local class 兩條橫線 hello...
Spark任務提交jar包依賴解決方案
通常我們將spark任務編寫後打包成jar包,使用spark submit進行提交,因為spark是分布式任務,如果執行機器上沒有對應的依賴jar檔案就會報classnotfound的錯誤。下面有三個解決方法 根據spark官網,在提交任務的時候指定 jars,用逗號分開。這樣做的缺點是每次都要指定...
spark任務執行及jar包
spark的jar包沒必要把所有相關的依賴都打進乙個jar包中,因為這樣會把spark hadoop本身相關的jar包也打進去,但是這些依賴在用spark submit命令執行時,會自動載入部署環境中已有的。opt cloudera parcels cdh bin spark submit clas...