export hadoop_home= /home/hadoop/hadoop-2.0.0-cdh4.5.0
export hadoop_conf_dir= $hadoop_home/etc/hadoop
spark_executor_instances=2
spark_executor_cores=1
spark_executor_memory=400m
spark_driver_memory=400m
其中:(1) hadoop_home:當前節點中hdfs的部署路徑,因為spark需要和hdfs中的節點在一起;
(2) hadoop_conf_dir:hdfs節點中的conf配置檔案路徑,正常情況下此目錄為$hadoop_home/etc/hadoop;
(3) spark_executor_instances:在yarn集群中啟動的worker的數目,預設為2個;
(4) spark_executor_cores:每個worker所占用的cpu核的數目;
(5) spark_executor_memory:每個worker所占用的記憶體大小;
配置完成後,將spark部署檔案放置到yarn的節點中即可。這裡,將spark-1.0.0整個目錄放到yarn集群的乙個節點192.168.1.112的/home/hadoop(設為spark的安裝路徑的父目錄)路徑下。
至於spark-env.sh檔案,可以配置如下屬性:
(1) spark_master_port:master服務埠,預設為7077;
(2) spark_worker_cores:每個worker程序所需要的cpu核的數目;
(3) spark_worker_memory:每個worker程序所需要的記憶體大小;
(4) spark_worker_instances:每個worker節點上執行worker程序的數目;
(5) spark_master_webui_port:master節點對應web服務的埠;
Spark 效能相關引數配置詳解 Storage篇
隨著spark的逐漸成熟完善,越來越多的可配置引數被新增到spark中來,本文試圖通過闡述這其中部分引數的工作原理和配置思路,和大家一起 一下如何根據實際場合對spark進行配置優化。由於篇幅較長,所以在這裡分篇組織,如果要看最新完整的網頁版內容,可以戳這裡 主要是便於更新內容 storage相關配...
Spark的日誌配置
在測試spark計算時,將作業提交到yarn 模式 master yarn cluster 上,想檢視print到控制台這是imposible的,因為作業是提交到yarn的集群上,so 去yarn集群上看日誌是很麻煩的,但有特別想看下print的資訊,方便除錯或者別的目的 在spark的conf目錄...
spark相關知識雜記
工作中經常用到hadoop和spark的相關操作,大資料的知識點很多,想要全部掌握爛熟於心很困難,將一些比較重要或經常忘記的點記錄一下 1.saprk與hadoop的關係 hadoop是乙個完善的大資料生態系統,包含了底層的檔案系統hdfs,計算引擎mapreduce,大資料查詢引擎hive,實時流...