大資料面試題

1.列舉spark 比hadoop 快的原因，以及現在存在的主要問題

2.描述下使用spark streaming 和 graphx實現實時計算的可行性，以及可能會遇到的問題

3.graphx的pregel api 只支援有向圖遍歷，如何實現無xiang 遍歷，描述思路

4.spark 通過yarn 提交任務時，yarn-client & yarn-cluster 的區別

5.spark 什麼時候需要切斷lineage ，如何實現，有什麼設計模式

6.spark streaming 如何保證資料不丟失，包括driver 和 worker

7.kafka 如何保證資料不丟失

8.在系統單一模組出錯的情況下，如何保證系統正常流轉

9.雪花模型和星形模型各自的應用場景

10.資料倉儲如何快速準確建立資料中間層

11使用過那些個bi工具

12常用列式儲存有哪些，有什麼優點

13spark api 的含義以及使用場景

mapflatmap

reducebykey

attregatebykey

updatestatebykey

14scala 中 call by name & call by value 的區別

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案，各存放50億個url，每個url各佔64位元組，記憶體限制是4g，讓你找出a b檔案共同的url？方案1 可以估計每個檔案安的大小為50g 64 320g，遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...

大資料面試題

1 mapreduce的大致流程 2 列出正確的hadoop集群中hadoop都分別啟動那些程序，他們的作用分別是什麼，盡量詳細些。3 請列出你所知道的hadoop排程器，並簡要說明其工作方法。4.flume不採集nginx日誌，通過logger4j採集日誌，優缺點是什麼？在nginx採集日誌時無法...

大資料面試題

1.簡述如何安裝配置apache 的乙個開源的 hadoop 2.列出hadoop 集群中的都分別需要啟動哪些程序它們分別是作用是什麼？3.簡述mapreduce的執行原理 4.hive中內部外部表的區別 5.mapreduce中的combiner 和partition的區別 6.說說你對yarn...

大資料面試題

大資料面試題

大資料面試題

大資料面試題

相關推薦