粗粒度模式(coarse-grained mode):每個應用程式的執行環境由乙個dirver和若干個executor組成,其中,每個executor占用若干資源,內部可執行多個task(對應多少個「slot」)。應用程式的各個任務正式執行之前,需要將執行環境中的資源全部申請好,且執行過程中要一直占用這些資源,即使不用,最後程式執行結束後,**這些資源。
細粒度模式(fine-grained mode):鑑於粗粒度模式會造成大量資源浪費,spark on mesos還提供了另外一種排程模式:細粒度模式,這種模式類似於現在的雲計算,思想是按需分配。
8.spark技術棧有哪些元件,每個元件都有什麼功能,適合什麼應用場景?
答:可以畫乙個這樣的技術棧圖先,然後分別解釋下每個元件的功能和場景
.jar
方法二:extraclasspath
提交時在spark-default中設定引數,將所有需要的jar包考到乙個檔案裡,然後在引數中指定該目錄就可以了,較上乙個方便很多:
spark.executor.extraclasspath=/home/hadoop/wzq_workspace/lib/* spark.driver.extraclasspath=/home/hadoop/wzq_workspace/lib/*
需要注意的是,你要在所有可能執行spark任務的機器上保證該目錄存在,並且將jar包考到所有機器上。這樣做的好處是提交**的時候不用再寫一長串jar了,缺點是要把所有的jar包都拷一遍。
20.cache和pesist的區別
答:1)cache和persist都是用於將乙個rdd進行快取的,這樣在之後使用的過程中就不需要重新計算了,可以大大節省程式執行時間;2) cache只有乙個預設的快取級別memory_only ,cache呼叫了persist,而persist可以根據情況設定其它的快取級別;3)executor執行的時候,預設60%做cache,40%做task操作,persist最根本的函式,最底層的函式
二、選擇題
spark 的四大元件下面哪個不是 (d )
a.spark streaming b. mlib
c graphx d.spark r
2.下面哪個埠不是 spark 自帶服務的埠 (c )
a.8080 b.4040 c.8090 d.18080
備註:8080:spark集群web ui埠,4040:sparkjob監控埠,18080:jobhistory埠
3.spark 1.4 版本的最大變化 (b )
a spark sql release 版本 b .引入 spark r
c dataframe d.支援動態資源分配
spark job 預設的排程模式 (a )
a fifo b fair
c 無 d 執行時指定
5.哪個不是本地模式執行的個條件 ( d)
a spark.localexecution.enabled=true
b 顯式指定本地執行
c finalstage 無父 stage
d partition預設值
6.下面哪個不是 rdd 的特點 (c )
a. 可分割槽 b 可序列化 c 可修改 d 可持久化
關於廣播變數,下面哪個是錯誤的 (d )
a 任何函式呼叫 b 是唯讀的
c 儲存在各個節點 d 儲存在磁碟或 hdfs
關於累加器,下面哪個是錯誤的 (d )
a 支援加法 b 支援數值型別
c 可並行 d 不支援自定義型別
9.spark 支援的分布式部署方式中哪個是錯誤的 (d )
a standalone b spark on mesos
c spark on yarn d spark on local
10.stage 的 task 的數量由什麼決定 (a )
a partition b job c stage d taskscheduler
11.下面哪個操作是窄依賴 (b )
a join b filter
c group d sort
12.下面哪個操作肯定是寬依賴 (c )
a map b flatmap
c reducebykey d sample
13.spark 的 master 和 worker 通過什麼方式進行通訊的? (d )
14 預設的儲存級別 (a )
a memory_only b memory_only_ser
c memory_and_disk d memory_and_disk_ser
15 spark.deploy.recoverymode 不支援那種 (d )
a.zookeeper b. filesystem
d none d hadoop
16.下列哪個不是 rdd 的快取方法 (c )
a persist() b cache()
c memory()
17.task 執行在下來**個選項中 executor 上的工作單元 (c )
a driver program b. spark master
c.worker node d cluster manager
18.hive 的元資料儲存在 derby 和 mysql 中有什麼區別 (b )
a.沒區別 b.多會話
c.支援網路環境 d資料庫的區別
19.dataframe 和 rdd 最大的區別 (b )
a.科學統計支援 b.多了 schema
c.儲存方式不一樣 d.外部資料來源支援
Spark面試術語總結
今天你比昨天更博學了麼,今天你比昨天更進步了麼,雨愛把時間荒廢在碌碌無為上,還不如踏踏實實學點東西,可能你進步很慢,只要你不放棄,一定可以的 送給正在努力的你 今天的學習 glossary the following table summarizes terms you ll see used to...
spark面試總結3
spark core面試篇03 1.spark使用parquet檔案儲存格式能帶來哪些好處?如果說hdfs 是大資料時代分布式檔案系統首選標準,那麼parquet則是整個大資料時代檔案儲存格式實時首選標準 速度更快 從使用spark sql操作普通檔案csv和parquet檔案速度對比上看,絕大多數...
面試總結 1
1.1 鍊錶翻轉和多路歸併 1.1 兩個棧實現乙個佇列,兩個佇列實現乙個棧 1.2 兩個字串之間的距離的衡量 1.3 最長回文子串 1.4 二叉樹的後序遍歷迭代形式 1.5 二叉樹的映象 1.6 huffman的編碼 1.7 無序陣列找第k大數 2 b 樹和紅黑樹的區別 3 排序的總結 4 概率和排...