大資料技術與應用 實驗七報告 spark安裝配置
2、傳輸
3、解壓安裝:
(2)環境變數配置:
在root使用者下執行:
命令:vi etc/profile
新增scala的安裝路徑資訊
export scala_home=/home/sun/scala-2.12.8
export path=pat
h:path:
path
:scala_home/bin
新增spark的安裝路徑資訊
export spark_home=/home/sun/spark-2.4.3
export path=pat
h:path:
path
:spark_home/bin
使配置檔案生效::source /etc/profile
測試:啟動scala命令測試
4、重新命名
(1)把scala-2.12.8 重新命名為 scala
執行命令:mv scala-2.12.8 scala
(2)把 spark-2.4.3-bin-hadoop2.7 重新命名為 spark
執行命令:mv spark-2.4.3-bin-hadoop2.7 spark
5、測試scala是否安裝成功
命令:scala -version
6、啟動
(1)啟動scala
(2)啟動spark
①首先要啟動hadoop 環境
②啟動spark環境
進入到spark_home/sbin下執行start-all.sh
[注] 如果使用start-all.sh時候會重複啟動hadoop配置,需要./在當前工作目錄下執行命令
jps 觀察程序 多出 worker 和 mater 兩個程序。
檢視spark的web控制頁面:http://bigdata128:8080/
顯示spark的埠是7070
③啟動spark shell
此模式用於interactive programming,先進入bin資料夾後執行:spark-shell
securecrt 下 spark-shell 下scala> 命令列無法刪除,解決辦法:
④退出spark shell
scala> :quit
7、使用spark shell編寫**
讀取本地檔案
顯示第一行內容
讀取hdfs檔案
對上述hdfs根目錄下f1.txt檔案進行詞頻統計
檢視結果
大資料技術與應用 Redis
1.基礎知識 redis是用c語言開發的乙個開源的高效能鍵值對 key value 資料庫。它通過提供多種鍵值資料型別來適應不同場景下的儲存需求,目前為止redis支援的鍵值資料型別如下字串 列表 lists 集合 sets 有序集合 sorts sets 雜湊表 hashs wget步驟如下 將r...
大資料技術與應用學習日誌
大資料定義 大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案系統 分布式資料庫 雲計算平台 網際網路和可擴充套件的儲存系統。最小的基本單位是bit,按順序給出所有單位 bit byte kb mb gb tb ...
大資料分析技術與應用
cda資料分析研究院原創作品 一 大資料概念 大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。二 大資料的特點 1 volume 大量 截至目前,人類生產的...