大資料面試題

2021-07-23 17:37:34 字數 644 閱讀 9059

1.列舉spark 比hadoop 快的原 因 ,以及現在存在的主要問題

2.描述下使用spark streaming 和 graphx實現實時計算的可行性,以及可能會遇到的問題

3.graphx的pregel api 只支援有向圖遍歷  ,如何實現無xiang 遍歷,描述思路

4.spark 通過yarn 提交任務時,yarn-client & yarn-cluster 的區別

5.spark 什麼時候需要切斷lineage  ,如何實現,有什麼設計模式

6.spark streaming 如何 保證資料不丟失,包括driver 和 worker

7.kafka 如何保證資料不丟失

8.在系統單一模組出錯的情況下 ,如何保證系統正常流轉

9.雪花模型和星形模型各自的應用場景

10.資料倉儲如何快速準確建立資料中間層

11使用過那些個bi工具

12常用列式儲存有哪些,有什麼優點

13spark api 的含義 以及使用場景

mapflatmap

reducebykey

attregatebykey

updatestatebykey

14scala 中 call by name & call by value 的區別

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...

大資料面試題

1 mapreduce的大致流程 2 列出正確的hadoop集群中hadoop都分別啟動那些程序,他們的作用分別是什麼,盡量詳細些。3 請列出你所知道的hadoop排程器,並簡要說明其工作方法。4.flume不採集nginx日誌,通過logger4j採集日誌,優缺點是什麼?在nginx採集日誌時無法...

大資料面試題

1.簡述如何安裝配置apache 的乙個開源的 hadoop 2.列出hadoop 集群中的都分別需要啟動哪些程序 它們分別是作用是什麼?3.簡述mapreduce的執行原理 4.hive中內部外部表的區別 5.mapreduce中的combiner 和partition的區別 6.說說你對yarn...