一. 問答題:
1. 簡單說說map端和reduce端溢寫的細節
2. hive的物理模型跟傳統資料庫有什麼不同
3. 描述一下hadoop機架感知
4. 對於mahout,如何進行推薦、分類、聚類的**二次開發分別實現那些介面
5. 直接將時間戳作為行健,在寫入單個region 時候會發生熱點問題,為什麼呢?
二. 計算題:
1. 比方:如今有10個資料夾, 每個資料夾都有1000000個url. 如今讓你找出top1000000url。
方法一:
運用2個job,第乙個job直接用filesystem讀取10個資料夾作為map輸入,url做key,reduce計算url的sum,
下乙個job map用url作key,運用sum作二次排序,reduce中取top10000000
方法二:
建hive表a,掛分割槽channel,每個資料夾是乙個分割槽.
select x.url,x.c from(select url,count(1) as c from a where channel ='' group by url) x order by x.c desc limit 1000000;
2.如果讓你設計,你覺得乙個分布式檔案系統應該如何設計,考慮哪方面內容?
hadoop面試題整理
一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...
hadoop面試題整理 一
一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...
hadoop面試題整理 五
一.問答題 1.hive如何調優?2.hive如何許可權控制?3.hbase寫資料的原理是什麼?4.hive能像關聯式資料庫那樣,建多個庫嗎?5.hbase宕機如何處理?6.hive實現統計的查詢語句是什麼?7.生產環境中為什麼建議使用外部表?8.hadoop mapreduce建立類datawri...