一. 問答題
1.hive如何調優?
2.hive如何許可權控制?
3.hbase寫資料的原理是什麼?
4.hive能像關聯式資料庫那樣,建多個庫嗎?
5.hbase宕機如何處理?
6.hive實現統計的查詢語句是什麼?
7.生產環境中為什麼建議使用外部表?
8.hadoop mapreduce建立類datawritable的作用是什麼?
9.為什麼建立類datawritable?
二. 思考題
1.假設公司要建乙個資料中心,你會如何規劃?
2.用hadoop分析海量日誌檔案,每行日誌記錄了如下資料:
tablename(表名),time(時間),user(使用者),timespan(時間開銷)。
要求:編寫mapreduce程式算出高峰時間段(如上午10 點)哪張表被訪問的最頻繁,以及這段時間訪問這張表最多的使用者,以及這個使用者的總時間開銷。
hadoop面試題整理
一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...
hadoop面試題整理 一
一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...
hadoop面試題整理 七
一.問答題 1.簡單說說map端和reduce端溢寫的細節 2.hive的物理模型跟傳統資料庫有什麼不同 3.描述一下hadoop機架感知 4.對於mahout,如何進行推薦 分類 聚類的 二次開發分別實現那些介面 5.直接將時間戳作為行健,在寫入單個region 時候會發生熱點問題,為什麼呢?二....