大資料面試題整理

2021-10-03 03:01:40 字數 672 閱讀 6642

2、在1的基礎上,求出現次數最多的k個ip(top-k問題)

3、給定a、b兩個大檔案,每行代表乙個訪問ip,求出a、b中重複的ip

2.map和flatmap:

flatmap會做乙個扁平化操作

3.map和foreache的區別:有無返回值;

4.reducebykey和groupbykey:reducebykey會先在每乙個節點上作聚合,這樣做有利於減少shuffle時的io操作,所以應盡量 選用reducebykey;

5.repartitions和coalesce:是否具有shuffle

3、rdd的依賴關係

4、spark中的dag是什麼?

5、spark的stage是如何劃分的?

6、spark中的對應關係?

7、spark記憶體溢位

8、spark on yarn中,yarn-client和yarn-cluster的區別?

9、spark作業的提交流程

10、rdd的容錯原理和容錯機制

11、spark的共享變數

2 累加器

12、driver的作用

13、spark中worker的作用

rdd、dataframe、dataset之間的區別?

hadoop和spark的shuffle區別?

高可用性?

大資料常見面試題整理

今年參加了校園秋招,主要針對招聘大資料研發相關崗位,最後也如願以償找到了大資料軟體開發的工作,在此期間整理了一下比較常見的相關面試題。1.mapreduce實際處理過程 input 2.列出yarn中的關鍵元件,並簡述各關鍵元件內部的互動原理。3.mapreduce的原理理解。4 reduce中的o...

大資料面試題整理(一) Flume

1 flume了解嗎。簡單介紹一下 flume是乙個高可用的,高可靠的,分布式的海量日誌採集 聚合和傳輸的系統,agent是flume流的基礎部分,agent是乙個jvm程序,agent的三大組成部分 source channel sink。傳輸資料的基本單元是event。優勢 flume可以將應用...

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...