1、mapreduce的大致流程
2、列出正確的hadoop集群中hadoop都分別啟動那些程序,他們的作用分別是什麼,盡量詳細些。
3、請列出你所知道的hadoop排程器,並簡要說明其工作方法。
4.flume不採集nginx日誌,通過logger4j採集日誌,優缺點是什麼?
在nginx採集日誌時無法獲取session的資訊,然而logger4j則可以獲取session的資訊,logger4j的方式比較穩定,不會宕機。缺點:不夠靈活,logger4j的方式和專案結合過濾緊密,
flume的方式就比較靈活,便於插拔式比較好,不會影響專案的效能。
5、請簡述hadoop怎麼實現二級排序?
6、hive如何優化
在優化時要注意資料的問題,儘量減少資料傾斜的問題,減少job的數量,同事對小的檔案進行成大的檔案,如果優化的設計那就更好了,因為hive的運算就是mapreduce所以調節mapreduce的引數也會使效能提高,如調節task的數目。
7、mapreduce如何優化
8、時鐘三點一刻是多少度角?
7.5度
9、已知,玻璃球從某高樓落到地面會摔碎,樓的最大高度為100層,給你兩個玻璃球,請你最快的測出,能使玻璃球摔碎的最低樓層.
先使用第乙個小球,以每次10層的跨度,依次拋到地面,觀察結果, 10層, 20層, 30層, 40層...., 如果在50層丟擲的時候,第一顆小球摔破了,則說明玻璃球的極限高度在40層到50層之間, 再使用第二顆小球, 從41層,42層,43層... ,依次丟擲,如果第二顆小球在第43層摔破,則43層為小球摔破的極限高度!
大資料面試題
海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...
大資料面試題
1.列舉spark 比hadoop 快的原 因 以及現在存在的主要問題 2.描述下使用spark streaming 和 graphx實現實時計算的可行性,以及可能會遇到的問題 3.graphx的pregel api 只支援有向圖遍歷 如何實現無xiang 遍歷,描述思路 4.spark 通過yar...
大資料面試題
1.簡述如何安裝配置apache 的乙個開源的 hadoop 2.列出hadoop 集群中的都分別需要啟動哪些程序 它們分別是作用是什麼?3.簡述mapreduce的執行原理 4.hive中內部外部表的區別 5.mapreduce中的combiner 和partition的區別 6.說說你對yarn...