1.列舉spark 比hadoop 快的原 因 ,以及現在存在的主要問題
2.描述下使用spark streaming 和 graphx實現實時計算的可行性,以及可能會遇到的問題
3.graphx的pregel api 只支援有向圖遍歷 ,如何實現無xiang 遍歷,描述思路
4.spark 通過yarn 提交任務時,yarn-client & yarn-cluster 的區別
5.spark 什麼時候需要切斷lineage ,如何實現,有什麼設計模式
6.spark streaming 如何 保證資料不丟失,包括driver 和 worker
7.kafka 如何保證資料不丟失
8.在系統單一模組出錯的情況下 ,如何保證系統正常流轉
9.雪花模型和星形模型各自的應用場景
10.資料倉儲如何快速準確建立資料中間層
11使用過那些個bi工具
12常用列式儲存有哪些,有什麼優點
13spark api 的含義 以及使用場景
mapflatmap
reducebykey
attregatebykey
updatestatebykey
14scala 中 call by name & call by value 的區別
大資料面試題
海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...
大資料面試題
1 mapreduce的大致流程 2 列出正確的hadoop集群中hadoop都分別啟動那些程序,他們的作用分別是什麼,盡量詳細些。3 請列出你所知道的hadoop排程器,並簡要說明其工作方法。4.flume不採集nginx日誌,通過logger4j採集日誌,優缺點是什麼?在nginx採集日誌時無法...
大資料面試題
1.簡述如何安裝配置apache 的乙個開源的 hadoop 2.列出hadoop 集群中的都分別需要啟動哪些程序 它們分別是作用是什麼?3.簡述mapreduce的執行原理 4.hive中內部外部表的區別 5.mapreduce中的combiner 和partition的區別 6.說說你對yarn...