簡介:
在我的cdh5.11集群中,預設安裝的spark是1.6版本,這裡需要將其公升級為spark2.x版本。經查閱官方文件,發現spark1.6和2.x是可以並行安裝的,也就是說可以不用刪除預設的1.6版本,可以直接安裝2.x版本,它們各自用的埠也是不一樣的。我嘗試了安裝spark2.0版本和spark2.1版本,均告成功。這裡做一下安裝spark2.1版本的步驟記錄。
cloudera發布apache spark 2概述(可以在這裡面找到安裝方法和parcel包的倉庫,不過待會我會給出位址和安裝方法):
cloudera manager及5.11版本的介紹:
一。安裝準備
所需軟體
①csd包:
②parcel包:
csd包所在的目錄:
parcel包所在的目錄
二。開始安裝
1.安裝前可以停掉集群和cloudera management service,也可以不停,但是待會還是要停止重啟的。
2.下面的操作在每個cdh節點都要進行。
3.上傳csd包到機器的/opt/cloudera/csd目錄,並且修改檔案的使用者和組。注意如果本目錄下有其他的jar包,把刪掉或者移到其他目錄
[root@kjtlxsvr6 csd]# chgrp cloudera-scm spark2_on_yarn-2.1.0.cloudera1.jar
[root@kjtlxsvr6 csd]# ls -la
total 16
drwxr-xr-x 2 cloudera-scm cloudera-scm 47 jun 23 16:11 .
drwxr-xr-x 6 cloudera-scm cloudera-scm 67 may 1 17:46 ..
-rw-r--r-- 1 root cloudera-scm 16109 jun 23 16:04 spark2_on_yarn-2.1.0.cloudera1.jar
[root@kjtlxsvr6 csd]# chown cloudera-scm spark2_on_yarn-2.1.0.cloudera1.jar
[root@kjtlxsvr6 csd]# ls -la
total 16
drwxr-xr-x 2 cloudera-scm cloudera-scm 47 jun 23 16:11 .
drwxr-xr-x 6 cloudera-scm cloudera-scm 67 may 1 17:46 ..
-rw-r--r-- 1 cloudera-scm cloudera-scm 16109 jun 23 16:04 spark2_on_yarn-2.1.0.cloudera1.jar
[root@kjtlxsvr6 csd]#
4.上傳parcel包到機器的/opt/cloudera/parcel-repo目錄下。注意,。如果有其他的安裝包,不用刪除 ,但是如果本目錄下有其他的重名檔案比如manifest.json檔案,把它重新命名備份掉。然後把那3個parcel包的檔案放在這裡。
5.如果剛剛沒有停掉cm和集群,現在將他們停掉。然後執行命令。
service cloudera-scm-agent restart
service cloudera-scm-server restart
這兩個命令,只需要在cm server節點執行,並且按照官方來說只用執行第二個命令,但因為我安裝失敗過幾次,這裡都執行了,並且如果你安裝失敗,這裡也可以兩個命令都執行,並且如果多次失敗,還可以嘗試在所有cdh節點都執行一下,我是這麼做了的
6.把cm和集群啟動起來。然後點選主機->parcel頁面,看是否多了個spark2的選項。如下圖,你這裡此時應該是分配按鈕,點選,等待操作完成後,點選啟用按鈕
7.啟用後,點選你的群集-》新增服務,新增spark2服務。注意,如果你這裡看不到spark2服務,就請檢查你的csd包和parcel包是否對應,上面的步驟是否有漏掉。正常情況下,應該是能用了。我的集群到此已經ok,來張圖紀念一下吧,不容易啊,網上資料太少了。
談談spark2以及stream
4月底去參加了qcon 2018北京站,新興資料處理專場有機會聽到了spark structedstreming blink kafka stream三場的分享,整個聽下來有一些感想,剛好最近又在看spark2這塊的一些原始碼設計,所以想著寫點自己的理解。想要解釋為什麼會出現dataset,那就不得...
Spark 2 效能監控方式
1 spark web ui spark提供了一些基本的web監控頁面,對於日常監控十分有用。通過http master 4040 預設埠是4040,可以通過spark.ui.port修改 我們可以獲得執行中的程式資訊 1 stages和tasks排程情況 2 rdd大小及記憶體使用 3 系統環境資...
快速安裝Spark2和Livy0 3
1 把spark 2.4.3 bin hadoop2.7.tgz上傳到 opt software目錄,並解壓到 opt module user01 node1 software tar zxvf spark 2.4.3 bin hadoop2.7.tgz c opt module 2 修改名稱 op...