CDH5 11安裝spark2 x詳細步驟

2022-09-07 16:18:13 字數 2411 閱讀 3052

簡介:

在我的cdh5.11集群中,預設安裝的spark是1.6版本,這裡需要將其公升級為spark2.x版本。經查閱官方文件,發現spark1.6和2.x是可以並行安裝的,也就是說可以不用刪除預設的1.6版本,可以直接安裝2.x版本,它們各自用的埠也是不一樣的。我嘗試了安裝spark2.0版本和spark2.1版本,均告成功。這裡做一下安裝spark2.1版本的步驟記錄。

cloudera發布apache spark 2概述(可以在這裡面找到安裝方法和parcel包的倉庫,不過待會我會給出位址和安裝方法):

cloudera manager及5.11版本的介紹:

一。安裝準備

所需軟體

①csd包:

②parcel包:

csd包所在的目錄:

parcel包所在的目錄

二。開始安裝

1.安裝前可以停掉集群和cloudera management service,也可以不停,但是待會還是要停止重啟的。

2.下面的操作在每個cdh節點都要進行。

3.上傳csd包到機器的/opt/cloudera/csd目錄,並且修改檔案的使用者和組。注意如果本目錄下有其他的jar包,把刪掉或者移到其他目錄

[root@kjtlxsvr6 csd]# chgrp cloudera-scm spark2_on_yarn-2.1.0.cloudera1.jar

[root@kjtlxsvr6 csd]# ls -la

total 16

drwxr-xr-x 2 cloudera-scm cloudera-scm    47 jun 23 16:11 .

drwxr-xr-x 6 cloudera-scm cloudera-scm    67 may  1 17:46 ..

-rw-r--r-- 1 root         cloudera-scm 16109 jun 23 16:04 spark2_on_yarn-2.1.0.cloudera1.jar

[root@kjtlxsvr6 csd]# chown cloudera-scm spark2_on_yarn-2.1.0.cloudera1.jar

[root@kjtlxsvr6 csd]# ls -la

total 16

drwxr-xr-x 2 cloudera-scm cloudera-scm    47 jun 23 16:11 .

drwxr-xr-x 6 cloudera-scm cloudera-scm    67 may  1 17:46 ..

-rw-r--r-- 1 cloudera-scm cloudera-scm 16109 jun 23 16:04 spark2_on_yarn-2.1.0.cloudera1.jar

[root@kjtlxsvr6 csd]#

4.上傳parcel包到機器的/opt/cloudera/parcel-repo目錄下。注意,。如果有其他的安裝包,不用刪除 ,但是如果本目錄下有其他的重名檔案比如manifest.json檔案,把它重新命名備份掉。然後把那3個parcel包的檔案放在這裡。

5.如果剛剛沒有停掉cm和集群,現在將他們停掉。然後執行命令。

service cloudera-scm-agent restart

service cloudera-scm-server restart

這兩個命令,只需要在cm server節點執行,並且按照官方來說只用執行第二個命令,但因為我安裝失敗過幾次,這裡都執行了,並且如果你安裝失敗,這裡也可以兩個命令都執行,並且如果多次失敗,還可以嘗試在所有cdh節點都執行一下,我是這麼做了的

6.把cm和集群啟動起來。然後點選主機->parcel頁面,看是否多了個spark2的選項。如下圖,你這裡此時應該是分配按鈕,點選,等待操作完成後,點選啟用按鈕

7.啟用後,點選你的群集-》新增服務,新增spark2服務。注意,如果你這裡看不到spark2服務,就請檢查你的csd包和parcel包是否對應,上面的步驟是否有漏掉。正常情況下,應該是能用了。我的集群到此已經ok,來張圖紀念一下吧,不容易啊,網上資料太少了。

談談spark2以及stream

4月底去參加了qcon 2018北京站,新興資料處理專場有機會聽到了spark structedstreming blink kafka stream三場的分享,整個聽下來有一些感想,剛好最近又在看spark2這塊的一些原始碼設計,所以想著寫點自己的理解。想要解釋為什麼會出現dataset,那就不得...

Spark 2 效能監控方式

1 spark web ui spark提供了一些基本的web監控頁面,對於日常監控十分有用。通過http master 4040 預設埠是4040,可以通過spark.ui.port修改 我們可以獲得執行中的程式資訊 1 stages和tasks排程情況 2 rdd大小及記憶體使用 3 系統環境資...

快速安裝Spark2和Livy0 3

1 把spark 2.4.3 bin hadoop2.7.tgz上傳到 opt software目錄,並解壓到 opt module user01 node1 software tar zxvf spark 2.4.3 bin hadoop2.7.tgz c opt module 2 修改名稱 op...