hadoop mapreduce框架
平行計算的思想、分而治之的思想
scala集合高階函式
處理資料的思想
將 要分析的資料放到集合中去,然後呼叫集合的高階函式處理資料
統一分析引擎為海量資料處理
統一:什麼樣的資料都能處理分析,什麼型別的資料都可以處理,實時,離線,流式都可以
mapreduce
map,reduce函式
將分析的中間結果放在磁碟中,並且後續進行分析資料的時候,再次從磁碟中去讀取資料,以往此往返
spark要處理的資料在**
hdfs/hive/hbase/orc/parquet/csv/tsv/jdbc/redis/mangdb/es/…
spark能從**讀資料,就可以往那裡寫資料
spark程式執行在**
本地模式
集群模式
yarn,standalone,mesos cluster
將要處理的資料讀取封裝到乙個集合rdd中(類別scala中list列表)val inputrdd = sc.textfile(『…」)
呼叫集合rdd中函式(高階函式)進行處理分析rdd –>函式 ->另外乙個rdd :transformation函式
val outpurdd = inputrdd.#(#:基本就是list中函式)
比如:map\flatmap\filter\reducebykey
呼叫rdd中函式,返回的不是rdd型別3步放在一起就是,就是鏈式程式設計outputrdd.# :此型別函式稱為action函式
foreach\count\sum\first
sc.textfile(…).transformation().action目前使用最多的版本spark安裝的依賴1. 上傳,解壓
2. 修改配置
3. 啟動
幫助命令:bin/spark-shell –help
啟動互動式命令:bin/spark-shell --master local[2]
4. 驗證是否啟動成功
首先,不報錯,進入互動式命令列
在webui上檢視
Spark工作機制簡述
spark應用提交後經歷了一系列的轉換,最後成為task在每個節點上執行.每個任務對應相應的乙個資料塊,使用使用者定義的函式處理資料塊.spark實現了分布式計算和任務處理,並實現了任務的分發,跟蹤,執行等工作.最終聚合結果,完成spark應用的計算.對rdd的塊管理通過blockmanger完成....
Spark工作流程簡述
資源管理器 standalone mesos或yarn 註冊並申請executor執行資源 2 資源管理器分配executor資源並啟動standaloneexecutorbackend,executor 運 況將隨著心跳傳送到資源管理器上 3 sparkcontext構建成dag圖並分解成stag...
簡述Spark基礎及架構
五 spark資料核心 rdd 六 建立rdd spark是基於記憶體的分布式計算框架,特點是快速 易用 通用及多種執行模式。spark架構主要由以下元件構成 cluster manager 在集群 standalone mesos yarn 上獲取資源的外部服務 task 被送到某個 execut...