1)把spark-2.4.3-bin-hadoop2.7.tgz上傳到/opt/software目錄,並解壓到/opt/module
[user01@node1 software]$ tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz -c /opt/module/
2)修改名稱/opt/module/spark-2.4.3-bin-hadoop2.7名稱為spark
[user01@node1 module]$ mv spark-2.4.3-bin-hadoop2.7/ spark
3)修改/opt/module/spark/conf/spark-defaults.conf.template名稱為spark-defaults.conf
[user01@node1 conf]$ mv spark-defaults.conf.template spark-defaults.conf
4)在hadoop集群上提前建立spark_directory日誌路徑
[user01@node1 spark]$ hadoop fs -mkdir /spark_directory
5)在spark-default.conf檔案中配置spark日誌路徑
[user01@node1 conf]$ vim spark-defaults.conf
#新增如下配置
spark.eventlog.enabled true
spark.eventlog.dir hdfs://node1:9000/spark_directory
6)修改/opt/module/spark/conf/spark-env.sh.template名稱為spark-env.sh
[user01@node1 conf]$ mv spark-env.sh.template spark-env.sh
7)在/opt/module/spark/conf/spark-env.s**件中配置yarn配置檔案路徑、配置歷史伺服器相關引數
[user01@node1 conf]$ vim spark-env.sh
#新增如下引數
yarn_conf_dir=/opt/module/hadoop-2.7.2/etc/hadoop
export spark_history_opts=
"-dspark.history.ui.port=18080
-dspark.history.fs.logdirectory=hdfs://node1:9000/spark_directory"
8)把hive中/opt/module/hive/lib/datanucleus-*.jar包拷貝到spark的/opt/module/spark/jars路徑
[user01@node1 lib]$ cp /opt/module/hive/lib/datanucleus-*.jar /opt/module/spark/jars/
9)把hive中/opt/module/hive/conf/hive-site.xml包拷貝到spark的/opt/module/spark/conf路徑
[user01@node1 conf]$ cp /opt/module/hive/conf/hive-site.xml /opt/module/spark/conf/
10)測試環境
[user01@node1 spark]$ bin/spark-shell
scala>spark.sql(
"show databases"
).show
1)上傳livy-server-0.3.0.zip到node1的/opt/software目錄下,並解壓到/opt/module
[user01@node1 software]$ unzip livy-server-0.3.0.zip -d /opt/module/
2)修改/opt/module/livy-server-0.3.0檔名稱為livy
[user01@node1 module]$ mv livy-server-0.3.0/ livy
3)修改/opt/module/livy/conf/livy.conf檔案,配置livy與spark相關引數
livy.server.host = node1
livy.spark.master =yarn
livy.spark.deploymode = client
livy.repl.enablehivecontext =
true
livy.server.port = 8999
4)配置需要的環境變數
[user01@node1 conf]$ sudo vim /etc/profile
#spark_home
export spark_home=/opt/module/spark
export path=
$path
:$spark_home/bin
[user01@node1 conf]$ source /etc/profile
5)在/opt/module/livy/路徑上,啟動livy服務
[user01@node1 livy]$ bin/livy-server start
6)訪問web端頁面成功! 談談spark2以及stream
4月底去參加了qcon 2018北京站,新興資料處理專場有機會聽到了spark structedstreming blink kafka stream三場的分享,整個聽下來有一些感想,剛好最近又在看spark2這塊的一些原始碼設計,所以想著寫點自己的理解。想要解釋為什麼會出現dataset,那就不得...
Spark 2 效能監控方式
1 spark web ui spark提供了一些基本的web監控頁面,對於日常監控十分有用。通過http master 4040 預設埠是4040,可以通過spark.ui.port修改 我們可以獲得執行中的程式資訊 1 stages和tasks排程情況 2 rdd大小及記憶體使用 3 系統環境資...
2 安裝spark和python練習
1.檢查基礎環境hadoop,jdk 2.解壓,資料夾重新命名 許可權 3.配置檔案 4.環境變數 5.試執行python 二 python程式設計練習 英文文字的詞頻統計 在wc.py中編寫 path home hadoop wc ff1.txt with open path as f text ...