pyspark提交集群任務

建議使用conda

conda轉殖環境

conda create -n prod_env --clone base

進入conda的miniconda3/envs

# 打包python環境

zip -r prod_env.zip prod_env

sh指令碼

exportpyspark_driver_python=***x/envs/prod_env/bin/python3

exportpyspark_python=./env/prod_env/bin/python3

spark-submit \

--master yarn \

--deploy-mode client \

--archives prod_env.zip#env \ #這裡是注釋會上傳本地的prod_env.zip到hdfs上，作為快取，執行時會解壓到env目錄，程式結束後自動刪除; 如果python的庫變動不大，可以提前做好zip包上傳到hdfs上，然後指定hdfs:///your-path

--conf spark.driver.host=ip位址 \# 此處是避免集群與client通訊失敗，預設繫結的是主機名

hello.py

hello.py

frompysparkimportsparkconf

frompyspark.sqlimportsparksession

print()

spark=sparksession.builder.enablehivesupport().getorcreate()

df=spark.sql('show databases')

df.show()

print()

spark.stop()

pyspark 程式頭與程式提交集群命令

這裡介紹使用sparkcontext的pyspark註冊頭，通過sparkconf對sparkcontext進行配置，sparkconf可以設定各種配置引數，如下面所示 from pyspark.context import sparkcontext from pyspark.sql import ...

pyspark提交任務依賴模組的解決方案

spark submit deploy mode client driver memory 2g executor memory 2g executor cores 3 num executors 3 properties file etc spark conf spark defaults.con...

在hue（oozie）上提交pyspark

因為需要使用python的一些庫，不得不使用pyspark。在這裡記錄下遇到的問題。本地開發環境，網上比較容易查到，這裡就不寫了。這裡主要說線上提交的依賴問題。這裡是用hue提交，主要有以下幾個步驟 1 將所有的依賴打成zip包 2 使用sc.addpyfiles path 或者是sc.addpyf...

pyspark提交集群任務

pyspark 程式頭與程式提交集群命令

pyspark提交任務依賴模組的解決方案

在hue（oozie）上提交pyspark

相關推薦