大資料開發者面試題,總結和整理

2021-09-26 22:21:56 字數 1416 閱讀 8779

金三銀四,金三已經過去,到了銀四,根據統計,很多人都會選擇在三月四月跳槽,原因有很多,企業年後會有大量員工離職,員工覺得老公司待遇不怎麼樣?薪資不夠高,想換個新環境等等原因,所以,三月份就變成了招聘與跳槽的旺季

大綱kafka的message包括哪些資訊

怎麼檢視kafka的offset

一、map端的shuffle

二、reduce端的shuffle

spark集群運算的模式

讀:1、跟namenode通訊查詢元資料,找到檔案塊所在的datanode伺服器

2、挑選一台datanode(就近原則,然後隨機)伺服器,請求建立socket流

3、datanode開始傳送資料(從磁碟裡面讀取資料放入流,以packet為單位來做校驗)

4、客戶端以packet為單位接收,現在本地快取,然後寫入目標檔案

寫:1、根namenode通訊請求上傳檔案,namenode檢查目標檔案是否已存在,父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第乙個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器abc

5、client請求3臺dn中的一台a上傳資料(本質上是乙個rpc呼叫,建立pipeline),a收到請求會繼續呼叫b,然後b呼叫c,將真個pipeline建立完成,逐級返回客戶端

6、client開始往a上傳第乙個block(先從磁碟讀取資料放到乙個本地記憶體快取),以packet為單位,a收到乙個packet就會傳給b,b傳給c;a每傳乙個packet會放入乙個應答佇列等待應答

7、當乙個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器。

rdd中reducebykey與groupbykey哪個效能好,為什麼

groupbykey:groupbykey會對每乙個rdd中的value值進行聚合形成乙個序列(iterator),此操作發生在reduce端,所以勢必會將所有的資料通過網路進行傳輸,造成不必要的浪費。同時如果資料量十分大,可能還會造成outofmemoryerror。

通過以上對比可以發現在進行大量資料的reduce操作時候建議使用reducebykey。不僅可以提高速度,還是可以防止使用groupbykey造成的記憶體溢位問題。

spark sql怎麼取資料的差集

spark2.0的了解

rdd 怎麼分割槽寬依賴和窄依賴

spark streaming 讀取kafka資料的兩種方式

這兩種方式分別是:

kafka的資料存在記憶體還是磁碟

怎麼解決kafka的資料丟失

多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**

大資料面試題整理

2 在1的基礎上,求出現次數最多的k個ip top k問題 3 給定a b兩個大檔案,每行代表乙個訪問ip,求出a b中重複的ip 2.map和flatmap flatmap會做乙個扁平化操作 3.map和foreache的區別 有無返回值 4.reducebykey和groupbykey redu...

大資料面試題總結

1.spark執行原理 啟動乙個driver程序 用於控制整個流程 當任務提交,首先會去向資源管理器 yarn,申請executor資源,根據sparkcontext獲取執行環境,然後driver會從程式倒著構建成dag圖,在將按照寬窄依賴減dag圖分解成stage,然後將taskset傳送給tas...

大資料面試題總結

1.關於zookeeper zookeeper 是乙個用來進行分布式協調的服務,這些服務包括配置服務,維護元資訊和命名空間服務。zookeeper是如何選取主leader的?當leader崩潰或者leader失去大多數的follower,這時候zk進入恢復模式,恢復模式需要重新選舉出乙個新的lead...