1、hive內部表和外部表的區別?
1) 在匯入資料到外部表,資料並沒有移動到自己的資料倉儲目錄下,也就是說外部表中的資料並不是由它自己來管理的!而內部表則不一樣;
2) 在刪除內部表的時候,hive將會把屬於內部表的元資料和資料全部刪掉;而刪除外部表的時候,hive僅僅刪除外部表的元資料,資料是不會刪除的!
那麼,應該如何選擇使用哪種表呢?在大多數情況沒有太多的區別,因此選擇只是個人喜好的問題。但是作為乙個經驗,如果所有處理都需要由hive完成,那麼你應該建立內部表,否則使用外部表!
2、hbase的rowkey怎麼建立比較好?列族怎麼建立比較好?
3、用mapreduce怎麼處理資料傾斜問題?
4、hadoop框架中怎麼來優化?
5、hbase內部是什麼機制?
6、hdfs的資料壓縮演算法
7、hive底層與資料庫互動原理
8、hbase過濾器實現原則
from:
hadoop面試題整理
一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...
hadoop面試題整理 一
一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...
hadoop面試題整理 五
一.問答題 1.hive如何調優?2.hive如何許可權控制?3.hbase寫資料的原理是什麼?4.hive能像關聯式資料庫那樣,建多個庫嗎?5.hbase宕機如何處理?6.hive實現統計的查詢語句是什麼?7.生產環境中為什麼建議使用外部表?8.hadoop mapreduce建立類datawri...