關於hadoop的安裝,這裡就不概述了!
spark部署模式主要有四種:local模式(單機模式)、standalone模式(使用spark自帶的簡單集群管理器)、yarn模式(使用yarn作為集群管理器)和mesos模式(使用mesos作為集群管理器)。
這裡介紹local模式(單機模式)的 spark安裝。
運用winscp將spark-1.6.3-bin-hadoop2.6.tgz上傳到master伺服器主節點端的/usr/local下,解壓
sudo tar -zxf spark-1.6.3-bin-hadoop2.6.tgz
cd /usr/local
sudo chown -r hadoop:hadoop ./spark #此處的hadoop為你的使用者名稱
安裝後,還需要修改spark的配置檔案spark-env.sh
cd /usr/local/spark-1.6.3-bin-hadoop2.6
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
編輯spark-env.sh檔案(vim ./conf/spark-env.sh),在第一行新增以下配置資訊:
export spark_dist_classpath=$(/usr/local/hadoop-2.8.4/bin/hadoop classpath)
有了上面的配置資訊以後,spark就可以把資料儲存到hadoop分布式檔案系統hdfs中,也可以從hdfs中讀取資料。如果沒有配置上面資訊,spark就只能讀寫本地資料,無法讀寫hdfs資料。配置完成後就可以直接使用,不需要像hadoop執行啟動命令。通過執行spark自帶的示例,驗證spark是否安裝成功。
cd /usr/local/spark-1.6.3-bin-hadoop2.6
bin/run-example sparkpi
執行時會輸出非常多的執行資訊,輸出結果不容易找到,可以通過 grep 命令進行過濾(命令中的 2>&1 可以將所有的資訊都輸出到 stdout 中,否則由於輸出日誌的性質,還是會輸出到螢幕中)
bin/run-example sparkpi 2>&1 | grep "pi is"
過濾後的執行結果如下圖示,可以得到π 的 近似值:
大資料面試 Spark篇(二)
監控批次處理時間,若超過閾值則告警,每次告警間隔2分鐘 class sparkstreamingdelaylistener private val duration int,private val times int extends streaminglistener 若批次處理延遲大於批次時長指定...
大資料技術與應用 實驗七報告 Spark安裝配置
大資料技術與應用 實驗七報告 spark安裝配置 2 傳輸 3 解壓安裝 2 環境變數配置 在root使用者下執行 命令 vi etc profile 新增scala的安裝路徑資訊 export scala home home sun scala 2.12.8 export path pat h p...
大資料之sqoop sqoop的安裝及常用操作
sqoop安裝 安裝在一台節點上就可以了。1.上傳sqoop 2.安裝和配置 在新增sqoop到環境變數 將資料庫連線驅動拷貝到 sqoop home lib裡 3.使用 第一類 資料庫中的資料匯入到hdfs上 sqoop import connect jdbc mysql username roo...