建議使用conda
conda轉殖環境
conda create -n prod_env --clone base
進入conda的miniconda3
/envs
# 打包python環境
zip -r prod_env.zip prod_env
sh指令碼
export
pyspark_driver_python=***x
/envs/prod_env/bin/python3
export
pyspark_python=.
/env/prod_env/bin/python3
spark-submit \
--master yarn \
--deploy-mode client \
--archives prod_env.zip
#env \ #這裡是注釋 會上傳本地的prod_env.zip到hdfs上,作為快取,執行時會解壓到env目錄,程式結束後自動刪除; 如果python的庫變動不大,可以提前做好zip包上傳到hdfs上,然後指定hdfs:///your-path
--conf spark.driver.host=ip位址 \
# 此處是避免集群與client通訊失敗,預設繫結的是主機名
hello.py
hello.py
from
pyspark
import
sparkconf
from
pyspark.sql
import
sparksession
print
(
)
spark
=
sparksession.builder.enablehivesupport().getorcreate()
df
=
spark.sql(
'show databases'
)
df.show()
print
(
)
spark.stop()
pyspark 程式頭與程式提交集群命令
這裡介紹使用sparkcontext的pyspark註冊頭,通過sparkconf對sparkcontext進行配置,sparkconf可以設定各種配置引數,如下面所示 from pyspark.context import sparkcontext from pyspark.sql import ...
pyspark提交任務依賴模組的解決方案
spark submit deploy mode client driver memory 2g executor memory 2g executor cores 3 num executors 3 properties file etc spark conf spark defaults.con...
在hue(oozie)上提交pyspark
因為需要使用python的一些庫,不得不使用pyspark。在這裡記錄下遇到的問題。本地開發環境,網上比較容易查到,這裡就不寫了。這裡主要說線上提交的依賴問題。這裡是用hue提交,主要有以下幾個步驟 1 將所有的依賴打成zip包 2 使用sc.addpyfiles path 或者是sc.addpyf...