因為最近在學習與使用spark,所以對一些基礎概念與術語做一些梳理。用來加深映像同時方便後續複習spark是乙個基於記憶體的分布式計算框架,可無縫整合於現有的hadoop生態體系。主要包括四大元件:spark streaming、spark sql、spark mllib和spark graphx。
spark執行中涉及到的一些基礎概念如下:
mater:主要是控制、管理和監督整個spark集群
client:客戶端,將用應用程式提交,記錄著要業務執行邏輯和master通訊。
sparkcontext:spark應用程式的入口,負責排程各個運算資源,協調各個work node上的executor。主要是一些記錄資訊,記錄誰執行的,執行的情況如何等。這也是為什麼程式設計的時候必須要建立乙個sparkcontext的原因了。
圖1- spark執行架構圖
task(任務):rdd中的乙個分割槽對應乙個task,task是單個分割槽上最小的處理流程單元。
taskset(任務集):一組關聯的,但相互之間沒有shuffle依賴關係的task集合。
stage(排程階段):乙個taskset對應的排程階段,每個job會根據rdd的寬依賴關係被切分很多stage,每個stage都包含 乙個taskset。
job(作業):由action運算元觸發生成的由乙個或者多個stage組成的計算作業。
dagscheduler:根據job構建基於stage的dag,並提交stage給taskscheduler。
taskscheduler:將taskset提交給worker node集群執行並返回結果。
SPARK基礎概念
可以認為應用是多次批量計算組合起來的過程,在物理上可以表現為你寫的程式包 部署配置。應用的概念類似於計算機中的程式,它只是乙個藍本,尚沒有執行起來。spark學習筆記三 spark原理介紹 spark最重要的api,使用者邏輯與spark集群主要的互動介面,它會和cluster master互動,包...
Spark基礎概念
spark 提供了乙個全面 統一的框架用於管理各種有著不同性質 文字資料 圖表資料等 的資料集和資料來源 批量資料或實時的流資料 的大資料處理的需求。包含spark 的基本功能 尤其是定義rdd 的api 操作以及這兩者上的動作。其他spark 的庫都是構建在rdd 和spark core 之上的。...
Hbase基礎概念 自我梳理
最近在了解hbase,寫點學習筆記方便自己梳理知識邏輯,也同大家有些交流,希望也能幫到同樣剛入門學習的新手,快速地了解其知識背景。因為很多專業詞彙我不知其中文對應,所以就不翻譯了,其實我認為有些詞彙從中文看反而難以理解,英文更能讓你快速get到其concept真正的意思。1.hbase特點 首先要從...