、spark
提交任務方式
)、spark on yarn
:$ ./bin/spark-submit--class org.apache.spark.examples.sparkpi \
--master yarn-cluster \
--num-executors 3 \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--queue thequeue \
lib/spark-examples*.jar \
10)、
spark on yarn
提交任務時:在
yarn-cluster
的集群模式,驅動程式執行在不同的機器比客戶端,所以
sparkcontext.addjar
不會解決的是客戶端的本地檔案盒。在可
sparkcontext.addjar
客戶端檔案,包括他們的——
jars
選項在啟動命令。
$ ./bin/spark-submit--class my.main.class \
--master yarn-cluster \
--jarsmy-other-jar.jar,my-other-other-jar.jar
my-main-jar.jar
spark
自帶的pi
程式,./bin/spark-submit--class org.apache.spark.examples.sparkpi \
--master yarn-cluster\
--num-executors 1 \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
lib/spark-examples*.jar\
)、spark-submit
:-submit
測試pi
:park
的bin
子目錄中的
spark-submit
指令碼是用於提交程式到集群中執行的工具,我們使用此工具做乙個關於
pi的計算。命令如下:
./bin/spark-submit --master spark://spark113:7077 \
--class org.apache.spark.examples.sparkpi \ --name spark-pi --executor-memory 400m \ --driver-memory 512m \
/home/hadoop/spark-1.0.0/examples/target/scala-2.10/spark-examples-1.0.0-hadoop2.0.0-cdh4.5.0.jar
-submit
測試:/home/hadoop/spark/spark-1.3.0-bin-hadoop2.4/bin/spark-submit\
--classorg.apache.spark.examples.sparkpi \
--masterspark: \
--executor-memory100m \
--executor-cores 1 \
1000
)、以集群的模式啟動
spark-shell
:./spark-shell --master spark://hadoop1:7077 --executor-memory 500m
、spark
啟動方式:
)、本地模式啟動
spark
:./spark-shell
--master local[2]
注意:可以指定多個執行緒
)、集群模式啟動
spark
:./bin/spark-shell --master spark://hadoop1:7077 --ex
ecutor-memory500m
注意:此啟動方式指定了
spark
-shell
執行時暫用的每個機器上
executor
的記憶體為
500m
spark-shell --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark
3)、在
python
直譯器中啟動
spark
:bin/pyspark--master local[3]4)、
在r語言的直譯器中啟動
spark
:bin/sparkr --master local[2]
)、yarn
的方式啟動
spark
:yarn
集群啟動
spark
:$ ./bin/spark-shell --master yarn-
cluster
yarn
客戶端啟動
spark
:$ ./bin/spark-shell --masteryarn-
client
spark-sql --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark
spark-sql --masterspark://master:7077 --driver-memory 10g --executor-memory 20g --driver-cores 3
Spark 啟動方式
1 spark 提交任務方式 spark on yarn bin spark submit class org.apache.spark.examples.sparkpi master yarn cluster num executors 3 driver memory 4g executor me...
spark啟動,啟動hadoop關閉步驟
sbin start all.sh 啟動所有的hadoop守護程序。包括namenode secondary namenode datanode resourcemanager nodemanager sbin stop all.sh 停止所有的hadoop守護程序。包括namenode secon...
Spark排序方式之Ordering on
一 spark的幾種排序方式 1 直接根據字段進行排序 弊端 如果欄位太多不便於使用 2 封裝乙個類,實現它的ordered 弊端 用自定義實現序列化方式比較麻煩 3 用case class的方式排序 推薦 不用new 預設就實現了序列化 4 最簡單的排序方式ordering on 二 spark最...