1)本地模式
spark不一定非要跑在hadoop集群,可以在本地,起多個執行緒的方式來指定。將spark應用以多執行緒的方式直接執行在本地,一般都是為了方便除錯,本地模式分三類
local:只啟動乙個executor
local[k]:啟動k個executor
local[*]:啟動跟cpu數目相同的 executor
2)standalone模式
分布式部署集群,自帶完整的服務,資源管理和任務監控是spark自己監控,這個模式也是其他模式的基礎。
3)spark on yarn模式
分布式部署集群,資源和任務監控交給yarn管理,但是目前僅支援粗粒度資源分配方式,包含cluster和client執行模式,cluster適合生產,driver執行在集群子節點,具有容錯功能,client適合除錯,dirver執行在客戶端。
4)spark on mesos模式。
官方推薦這種模式(當然,原因之一是血緣關係)。正是由於spark開發之初就考慮到支援mesos,因此,目前而言,spark執行在mesos上會比執行在yarn上更加靈活,更加自然。使用者可選擇兩種排程模式之一執行自己的應用程式:
(1)粗粒度模式(coarse-grained mode):每個應用程式的執行環境由乙個dirver和若干個executor組成,其中,每個executor占用若干資源,內部可
spark面試題 一
1 driver的功能是什麼?1 乙個spark作業執行時包括乙個driver程序,也是作業的主程序,具有main函式,並且有sparkcontext的例項,是程式的人口點 2 功能 負責向集群申請資源,向master註冊資訊,負責了作業的排程,負責作業的解析 生成stage並排程task到exec...
Spark面試題 三
39.spark的udf?因為目前 spark sql 本身支援的函式有限,一些常用的函式都沒有,比如 len,concat.etc 但是使用 udf 來自己實現根據業務需要的功能是非常方便的。spark sql udf 其實是乙個 scala 函式,被 catalyst 封裝成乙個 express...
spark經典面試題
1 寬依賴 乙個分割槽對應多個分割槽,這就表明有shuffle過程,父分割槽資料經過shuffle過程的hash分割槽器劃分子rdd。例如 groupbykey reducebykey sortbykey等操作,shuffle可以理解為資料從原分割槽打亂重組到新分割槽 2 窄依賴 乙個分割槽對應乙個...