pyspark提交集群任務

2021-10-11 21:09:33 字數 1463 閱讀 8837

建議使用conda

conda轉殖環境

conda create -n prod_env --clone base

進入conda的miniconda3/envs

# 打包python環境

zip -r prod_env.zip  prod_env

sh指令碼

exportpyspark_driver_python=***x/envs/prod_env/bin/python3

exportpyspark_python=./env/prod_env/bin/python3

spark-submit \

--master yarn \

--deploy-mode client \

--archives prod_env.zip#env \  #這裡是注釋 會上傳本地的prod_env.zip到hdfs上,作為快取,執行時會解壓到env目錄,程式結束後自動刪除; 如果python的庫變動不大,可以提前做好zip包上傳到hdfs上,然後指定hdfs:///your-path

--conf spark.driver.host=ip位址 \# 此處是避免集群與client通訊失敗,預設繫結的是主機名

hello.py

hello.py

frompysparkimportsparkconf

frompyspark.sqlimportsparksession

print()

spark=sparksession.builder.enablehivesupport().getorcreate()

df=spark.sql('show databases')

df.show()

print()

spark.stop()

pyspark 程式頭與程式提交集群命令

這裡介紹使用sparkcontext的pyspark註冊頭,通過sparkconf對sparkcontext進行配置,sparkconf可以設定各種配置引數,如下面所示 from pyspark.context import sparkcontext from pyspark.sql import ...

pyspark提交任務依賴模組的解決方案

spark submit deploy mode client driver memory 2g executor memory 2g executor cores 3 num executors 3 properties file etc spark conf spark defaults.con...

在hue(oozie)上提交pyspark

因為需要使用python的一些庫,不得不使用pyspark。在這裡記錄下遇到的問題。本地開發環境,網上比較容易查到,這裡就不寫了。這裡主要說線上提交的依賴問題。這裡是用hue提交,主要有以下幾個步驟 1 將所有的依賴打成zip包 2 使用sc.addpyfiles path 或者是sc.addpyf...