部署圖
從部署圖中可以看到
./bin/run‐example sparkpi 10那麼 sparkpi 就是 master 上的driver。如果是 yarn 集群,那麼 driver 可能被排程到 worker 節點上執行(比如上
圖中的 worker node 2)。
在standalone版本中,executorbackend 被例項化成 coarsegrainedexecutorbackend 程序。
我們使用重點內容spark 自帶的 examples 包中的 groupbytest,假設在 master 節點執行,命令是
bin/run‐example groupbytest 100 10000 1000 36
spark 學習筆記
最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...
spark學習筆記
1 缺省會寫成一堆小檔案,需要將其重新分割槽,直接指定幾個分割槽 spark.sql select row number over partition by depid order by salary rownum from emp repartition 2 write.parquet hdfs ...
Spark學習筆記
spark不僅僅支援mapreduce,還支援sql machine learning graph運算等,比起hadoop應用更靈活寬泛。spark 中的rdd 資料結構應對mapreduce中data replication disk io serialization引起的低效問題。rdd 類似於...