spark簡述,安裝

2021-09-25 19:10:46 字數 1612 閱讀 9988

hadoop mapreduce框架

平行計算的思想、分而治之的思想

scala集合高階函式

處理資料的思想

將 要分析的資料放到集合中去,然後呼叫集合的高階函式處理資料

統一分析引擎為海量資料處理

統一:什麼樣的資料都能處理分析,什麼型別的資料都可以處理,實時,離線,流式都可以

mapreduce

map,reduce函式

將分析的中間結果放在磁碟中,並且後續進行分析資料的時候,再次從磁碟中去讀取資料,以往此往返

spark要處理的資料在**

hdfs/hive/hbase/orc/parquet/csv/tsv/jdbc/redis/mangdb/es/…

spark能從**讀資料,就可以往那裡寫資料

spark程式執行在**

本地模式

集群模式

yarn,standalone,mesos cluster

將要處理的資料讀取封裝到乙個集合rdd中(類別scala中list列表)

val inputrdd = sc.textfile(『…」)

呼叫集合rdd中函式(高階函式)進行處理分析

rdd –>函式 ->另外乙個rdd :transformation函式

val outpurdd = inputrdd.#(#:基本就是list中函式)

比如:map\flatmap\filter\reducebykey

呼叫rdd中函式,返回的不是rdd型別

outputrdd.# :此型別函式稱為action函式

foreach\count\sum\first

3步放在一起就是,就是鏈式程式設計

sc.textfile(…).transformation().action

目前使用最多的版本spark安裝的依賴1. 上傳,解壓

2. 修改配置

3. 啟動

幫助命令:bin/spark-shell –help

啟動互動式命令:bin/spark-shell --master local[2]

4. 驗證是否啟動成功

首先,不報錯,進入互動式命令列

在webui上檢視

Spark工作機制簡述

spark應用提交後經歷了一系列的轉換,最後成為task在每個節點上執行.每個任務對應相應的乙個資料塊,使用使用者定義的函式處理資料塊.spark實現了分布式計算和任務處理,並實現了任務的分發,跟蹤,執行等工作.最終聚合結果,完成spark應用的計算.對rdd的塊管理通過blockmanger完成....

Spark工作流程簡述

資源管理器 standalone mesos或yarn 註冊並申請executor執行資源 2 資源管理器分配executor資源並啟動standaloneexecutorbackend,executor 運 況將隨著心跳傳送到資源管理器上 3 sparkcontext構建成dag圖並分解成stag...

簡述Spark基礎及架構

五 spark資料核心 rdd 六 建立rdd spark是基於記憶體的分布式計算框架,特點是快速 易用 通用及多種執行模式。spark架構主要由以下元件構成 cluster manager 在集群 standalone mesos yarn 上獲取資源的外部服務 task 被送到某個 execut...