2、在1的基礎上,求出現次數最多的k個ip(top-k問題)
3、給定a、b兩個大檔案,每行代表乙個訪問ip,求出a、b中重複的ip
2.map和flatmap:
flatmap會做乙個扁平化操作
3.map和foreache的區別:有無返回值;
4.reducebykey和groupbykey:reducebykey會先在每乙個節點上作聚合,這樣做有利於減少shuffle時的io操作,所以應盡量 選用reducebykey;
5.repartitions和coalesce:是否具有shuffle
3、rdd的依賴關係
4、spark中的dag是什麼?
5、spark的stage是如何劃分的?
6、spark中的對應關係?
7、spark記憶體溢位
8、spark on yarn中,yarn-client和yarn-cluster的區別?
9、spark作業的提交流程
10、rdd的容錯原理和容錯機制
11、spark的共享變數
2 累加器
12、driver的作用
13、spark中worker的作用
rdd、dataframe、dataset之間的區別?
hadoop和spark的shuffle區別?
高可用性?
大資料常見面試題整理
今年參加了校園秋招,主要針對招聘大資料研發相關崗位,最後也如願以償找到了大資料軟體開發的工作,在此期間整理了一下比較常見的相關面試題。1.mapreduce實際處理過程 input 2.列出yarn中的關鍵元件,並簡述各關鍵元件內部的互動原理。3.mapreduce的原理理解。4 reduce中的o...
大資料面試題整理(一) Flume
1 flume了解嗎。簡單介紹一下 flume是乙個高可用的,高可靠的,分布式的海量日誌採集 聚合和傳輸的系統,agent是flume流的基礎部分,agent是乙個jvm程序,agent的三大組成部分 source channel sink。傳輸資料的基本單元是event。優勢 flume可以將應用...
大資料面試題
海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...