1.簡述如何安裝配置apache 的乙個開源的 hadoop
2.列出hadoop 集群中的都分別需要啟動哪些程序 它們分別是作用是什麼?
3.簡述mapreduce的執行原理
4.hive中內部外部表的區別
5.mapreduce中的combiner 和partition的區別
6.說說你對yarn 的理解
7.redis效能優化,單機增加cpu核數是否會提高效能
8.採集資料為什麼選擇kafka
9.專案中遇到什麼難題,有沒有資料丟失,怎麼解決
10.rdd中reducebykey與groupbykey的區別
11.kafka 重啟是否會導致資料丟失
12.講一講checkpoint
13.datax的架構,為什麼不用sqoop
14.跨集群資料同步distcp的原理
15.描述mapreduce的過程,中間有幾次寫磁碟
16.orc、parquet等列式儲存的優點
17.hive傾斜原因,怎麼解決,mapjoin
18.arraryblockingqueue的實現
19.排程系統的實現,開源排程系統azkaban
20.zookkeeper ha原理
21.大頂堆、小頂堆;堆的建堆過程,調整過程
22.排序演算法
23.二分法以及變種
24.jvm引數調優經驗
大資料面試題
海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...
大資料面試題
1.列舉spark 比hadoop 快的原 因 以及現在存在的主要問題 2.描述下使用spark streaming 和 graphx實現實時計算的可行性,以及可能會遇到的問題 3.graphx的pregel api 只支援有向圖遍歷 如何實現無xiang 遍歷,描述思路 4.spark 通過yar...
大資料面試題
1 mapreduce的大致流程 2 列出正確的hadoop集群中hadoop都分別啟動那些程序,他們的作用分別是什麼,盡量詳細些。3 請列出你所知道的hadoop排程器,並簡要說明其工作方法。4.flume不採集nginx日誌,通過logger4j採集日誌,優缺點是什麼?在nginx採集日誌時無法...