hadoop面試題整理七

一. 問答題：

1. 簡單說說map端和reduce端溢寫的細節

2. hive的物理模型跟傳統資料庫有什麼不同

3. 描述一下hadoop機架感知

4. 對於mahout，如何進行推薦、分類、聚類的**二次開發分別實現那些介面

5. 直接將時間戳作為行健，在寫入單個region 時候會發生熱點問題，為什麼呢？

二. 計算題：

1. 比方:如今有10個資料夾, 每個資料夾都有1000000個url. 如今讓你找出top1000000url。

方法一：

運用2個job，第乙個job直接用filesystem讀取10個資料夾作為map輸入，url做key，reduce計算url的sum，

下乙個job map用url作key，運用sum作二次排序，reduce中取top10000000

方法二：

建hive表a，掛分割槽channel，每個資料夾是乙個分割槽.

select x.url,x.c from(select url,count(1) as c from a where channel ='' group by url) x order by x.c desc limit 1000000;

2.如果讓你設計，你覺得乙個分布式檔案系統應該如何設計，考慮哪方面內容？

hadoop面試題整理

一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop，只描述即可，無需列出完整步驟，能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案，方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...

hadoop面試題整理一

hadoop面試題整理五

一.問答題 1.hive如何調優？2.hive如何許可權控制？3.hbase寫資料的原理是什麼？4.hive能像關聯式資料庫那樣，建多個庫嗎？5.hbase宕機如何處理？6.hive實現統計的查詢語句是什麼？7.生產環境中為什麼建議使用外部表？8.hadoop mapreduce建立類datawri...

hadoop面試題整理 七

hadoop面試題整理

hadoop面試題整理 一

hadoop面試題整理 五

相關推薦

hadoop面試題整理七

hadoop面試題整理一

hadoop面試題整理五