spark面試總結1

2022-08-18 21:21:17 字數 2795 閱讀 8850

粗粒度模式(coarse-grained mode):每個應用程式的執行環境由乙個dirver和若干個executor組成,其中,每個executor占用若干資源,內部可執行多個task(對應多少個「slot」)。應用程式的各個任務正式執行之前,需要將執行環境中的資源全部申請好,且執行過程中要一直占用這些資源,即使不用,最後程式執行結束後,**這些資源。

細粒度模式(fine-grained mode):鑑於粗粒度模式會造成大量資源浪費,spark on mesos還提供了另外一種排程模式:細粒度模式,這種模式類似於現在的雲計算,思想是按需分配。

8.spark技術棧有哪些元件,每個元件都有什麼功能,適合什麼應用場景?

答:可以畫乙個這樣的技術棧圖先,然後分別解釋下每個元件的功能和場景

.jar

方法二:extraclasspath

提交時在spark-default中設定引數,將所有需要的jar包考到乙個檔案裡,然後在引數中指定該目錄就可以了,較上乙個方便很多:

spark.executor.extraclasspath=/home/hadoop/wzq_workspace/lib/* spark.driver.extraclasspath=/home/hadoop/wzq_workspace/lib/*

需要注意的是,你要在所有可能執行spark任務的機器上保證該目錄存在,並且將jar包考到所有機器上。這樣做的好處是提交**的時候不用再寫一長串jar了,缺點是要把所有的jar包都拷一遍。

20.cache和pesist的區別

答:1)cache和persist都是用於將乙個rdd進行快取的,這樣在之後使用的過程中就不需要重新計算了,可以大大節省程式執行時間;2) cache只有乙個預設的快取級別memory_only ,cache呼叫了persist,而persist可以根據情況設定其它的快取級別;3)executor執行的時候,預設60%做cache,40%做task操作,persist最根本的函式,最底層的函式

二、選擇題

spark 的四大元件下面哪個不是 (d )

a.spark streaming b. mlib

c graphx d.spark r

2.下面哪個埠不是 spark 自帶服務的埠 (c )

a.8080 b.4040 c.8090 d.18080

備註:8080:spark集群web ui埠,4040:sparkjob監控埠,18080:jobhistory埠

3.spark 1.4 版本的最大變化 (b )

a spark sql release 版本 b .引入 spark r

c dataframe d.支援動態資源分配

spark job 預設的排程模式 (a )

a fifo b fair

c 無 d 執行時指定

5.哪個不是本地模式執行的個條件 ( d)

a spark.localexecution.enabled=true

b 顯式指定本地執行

c finalstage 無父 stage

d partition預設值

6.下面哪個不是 rdd 的特點 (c )

a. 可分割槽 b 可序列化 c 可修改 d 可持久化

關於廣播變數,下面哪個是錯誤的 (d )

a 任何函式呼叫 b 是唯讀的

c 儲存在各個節點 d 儲存在磁碟或 hdfs

關於累加器,下面哪個是錯誤的 (d )

a 支援加法 b 支援數值型別

c 可並行 d 不支援自定義型別

9.spark 支援的分布式部署方式中哪個是錯誤的 (d )

a standalone b spark on mesos

c spark on yarn d spark on local

10.stage 的 task 的數量由什麼決定 (a )

a partition b job c stage d taskscheduler

11.下面哪個操作是窄依賴 (b )

a join b filter

c group d sort

12.下面哪個操作肯定是寬依賴 (c )

a map b flatmap

c reducebykey d sample

13.spark 的 master 和 worker 通過什麼方式進行通訊的? (d )

14 預設的儲存級別 (a )

a memory_only b memory_only_ser

c memory_and_disk d memory_and_disk_ser

15 spark.deploy.recoverymode 不支援那種 (d )

a.zookeeper b. filesystem

d none d hadoop

16.下列哪個不是 rdd 的快取方法 (c )

a persist() b cache()

c memory()

17.task 執行在下來**個選項中 executor 上的工作單元 (c )

a driver program b. spark master

c.worker node d cluster manager

18.hive 的元資料儲存在 derby 和 mysql 中有什麼區別 (b )

a.沒區別 b.多會話

c.支援網路環境 d資料庫的區別

19.dataframe 和 rdd 最大的區別 (b )

a.科學統計支援 b.多了 schema

c.儲存方式不一樣 d.外部資料來源支援

Spark面試術語總結

今天你比昨天更博學了麼,今天你比昨天更進步了麼,雨愛把時間荒廢在碌碌無為上,還不如踏踏實實學點東西,可能你進步很慢,只要你不放棄,一定可以的 送給正在努力的你 今天的學習 glossary the following table summarizes terms you ll see used to...

spark面試總結3

spark core面試篇03 1.spark使用parquet檔案儲存格式能帶來哪些好處?如果說hdfs 是大資料時代分布式檔案系統首選標準,那麼parquet則是整個大資料時代檔案儲存格式實時首選標準 速度更快 從使用spark sql操作普通檔案csv和parquet檔案速度對比上看,絕大多數...

面試總結 1

1.1 鍊錶翻轉和多路歸併 1.1 兩個棧實現乙個佇列,兩個佇列實現乙個棧 1.2 兩個字串之間的距離的衡量 1.3 最長回文子串 1.4 二叉樹的後序遍歷迭代形式 1.5 二叉樹的映象 1.6 huffman的編碼 1.7 無序陣列找第k大數 2 b 樹和紅黑樹的區別 3 排序的總結 4 概率和排...