大資料面試題

2021-08-28 12:16:25 字數 708 閱讀 8605

1.簡述如何安裝配置apache 的乙個開源的 hadoop

2.列出hadoop 集群中的都分別需要啟動哪些程序 它們分別是作用是什麼?

3.簡述mapreduce的執行原理

4.hive中內部外部表的區別

5.mapreduce中的combiner 和partition的區別

6.說說你對yarn 的理解

7.redis效能優化,單機增加cpu核數是否會提高效能

8.採集資料為什麼選擇kafka

9.專案中遇到什麼難題,有沒有資料丟失,怎麼解決

10.rdd中reducebykey與groupbykey的區別

11.kafka 重啟是否會導致資料丟失

12.講一講checkpoint

13.datax的架構,為什麼不用sqoop

14.跨集群資料同步distcp的原理

15.描述mapreduce的過程,中間有幾次寫磁碟

16.orc、parquet等列式儲存的優點

17.hive傾斜原因,怎麼解決,mapjoin

18.arraryblockingqueue的實現

19.排程系統的實現,開源排程系統azkaban

20.zookkeeper ha原理

21.大頂堆、小頂堆;堆的建堆過程,調整過程

22.排序演算法

23.二分法以及變種

24.jvm引數調優經驗

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...

大資料面試題

1.列舉spark 比hadoop 快的原 因 以及現在存在的主要問題 2.描述下使用spark streaming 和 graphx實現實時計算的可行性,以及可能會遇到的問題 3.graphx的pregel api 只支援有向圖遍歷 如何實現無xiang 遍歷,描述思路 4.spark 通過yar...

大資料面試題

1 mapreduce的大致流程 2 列出正確的hadoop集群中hadoop都分別啟動那些程序,他們的作用分別是什麼,盡量詳細些。3 請列出你所知道的hadoop排程器,並簡要說明其工作方法。4.flume不採集nginx日誌,通過logger4j採集日誌,優缺點是什麼?在nginx採集日誌時無法...