local 單機,所有jobs都在這台機器上執行。
standalone 就是說多台機器組成乙個集群,然後jobs可以分在多台機器上執行
yarn 就是說spark程式執行在yarn上
client 就是jobs在不同機器執行,然後結果返回到這台機器上。
cluster 就是說jobs在不同機器上執行,結果返回到集群中的某一台機器上。
單機:local[n] 單機偽分布式模式,n個執行緒分別充當driver和executors。由於driver和executors處於同乙個jvm,運算元可以訪問外部的變數。很多新手的壞習慣就是從這裡養成的
集群:standalone spark worker組成集群,spark內建的集群搭建模式。適合於不太依賴hadoop的運算環境,或者儲存集群和計算集群分離的場景。
yarn 執行與hadoop yarn集群之上。作業排程、資源排程由yarn分配。yarn在這方面做得比spark standalone集群好。適用於儲存計算合一,或者需要依賴mr、hive等作業的場景
部署模式:
client driver執行於執行spark-submit指令碼的機器上。這機器不一定是集群的節點,你可以在windows上執行driver,linux集群執行executors。
cluster 作業提交後,driver執行於集群上的某乙個節點上,集群視其為乙個executor。相當於後台程式。
standalone 和 yarn(還有mesos,這個不了解)都支援client/cluster兩種模式。前者由--master引數控制,後者由deploy-mode引數控制
spark執行模式
spark的執行模式多種多樣,靈活多變,部署在單機上時,既可以用本地模式執行,也可以用偽分布式模式執行 而當以分布式集群的方式部署時,底層的資源排程既可以依賴於外部的資源排程框架,也可以使用spark內建的standalone模式。對於外部資源排程框架的支援,目前主要包括mesos模式和hadoop...
Spark執行模式
2018 04 07 自己知道的spark執行的四種模式,以乙個計算hdfs中某檔案 20g大小 的行數為例,這個檔案的塊集中在node3上。我的spark集群work是node1 3,master是node1。具體的執行命令,可以看前一篇。local 執行於本地,也是預設的情況。執行時間最少。初步...
yarn模式執行spark
yarn上啟動spark有二種模式 yarn client模式 和 yarn cluster模式 yarn cluster模式 框架在集群中啟動driver程式 yarn client模式 框架在client中啟動driver程式 master 引數可以簡單配置成yarn client 或者 yar...