執行spark-shell需要指向申請資源的standalone spark集群資訊,其引數為master,還可以指定executor及driver的記憶體大小。
sudo spark-shell --executor-memory 5g --driver-memory1g --master spark:
spark-shell啟動完後,可以在互動視窗中輸入scala命令,進行操作,其中spark-shell已經預設生成sc物件,可以用:
val user_rdd1 = sc.textfile(inputpath, 10)
讀取資料資源等。
上面方法需要在互動視窗中一條一條的輸入scala程式;將scala程式儲存在test.scala檔案中,可以通過以下命令一次執行該檔案中的程式**:
sudo spark-shell --executor-memory 5g --driver-memory1g --master spark: < test.scala
執行後會自動進入spark-shell互動視窗並且執行test.scala中的程式,執行完成後,會自動退出spark-shell。
如果程式退出終端後,linux終端失效,可以試試:stty echo 命令
spark提供了乙個容易上手的應用程式部署工具bin/spark-submit,可以完成spark應用程式在local、standalone、yarn、mesos上的快捷部署。可以指定集群資源master,executor/ driver的記憶體資源等。
sudo spark-submit --masterspark: --executor-memory 5g --class mypackage.test workcount.jar hdfs:
workcount .scala **打包workcount.jar,並將檔案需要上傳到spark的安裝目錄下面;
hdfs:為輸入引數;
Spark指令碼提交 執行 部署
尊重版權,謝謝分享 執行spark shell需要指向申請資源的standalone spark集群資訊,其引數為master,還可以指定executor及driver的記憶體大小。sudo spark shell executor memory 5g driver memory1g master ...
ubuntu python指令碼後台執行 部署
在伺服器執行python指令碼,如果你按了ctrl c或者關閉了這個ssh終端 你的這個指令碼就會停止!所以你需要以後台程式的方式執行 你的這個python指令碼,可以使用nobup命令。鍵入這樣的命令 nohup python3 u py out 2 1 解釋下 nohup 和 最後的 包著的就是...
Spark任務提交執行全流程詳解
spark任務的本質是對我們編寫的rdd的依賴關係切分成乙個個stage,將stage按照分區分批次的生成taskset傳送到executor進行任務的執行 spark任務分兩種 1 shufflemaptask shuffle之後的task 2 resulttask shuffle之前的task ...