1. hive中 null 太多會占用大量空間 , 用這個可以減少占用
altertable test_null set serdeproperties('
serialization.null.format'=
'');
2. 使用 sqoop 從mysql 和hive的 互相匯入
mysql 中 空 底層是用 null 表示
hive 中 空 底層是用 /n 表示
3. hive支援 tez 引擎 , 比mapreduce 引擎更快
4.建立mapreduce 任務的時候 , 檔案太多 , 可以設定
set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.combinehiveinputformat;
這是將碎檔案合併之後, 再處理
因為一般情況下 , 如果有100個1m的檔案 , 會有100個map 任務開啟 , 優化
之後 , 直接將100個小檔案合併成乙個100m的檔案 , 再進行處理
5. hive 也可以設定reduce 個數 . 然後也就是會有幾個檔案
6.
04hive常見屬性設定
16.1.default資料倉儲的最原始位置是在hdfs上的 user hive warehouse路徑下。16.2.在倉庫目錄下,沒有對預設的資料庫default建立資料夾。如果某張表屬於default資料庫,直接在資料倉儲目錄下建立乙個資料夾。將hive default.xml.template...
hive常見命令
clear 清屏 dfs lsr hive 執行dfs命令 show databases 檢視所有資料庫 okdefault time taken 1.693 seconds,fetched 1 row s 我們發現只有乙個default庫 於是我們使用default 資料庫 hive use de...
hive常見命令
hive常用命令 1 進入hive資料庫 hive 2 檢視hive中的所有資料庫 show databases 3 用default資料庫 use default 4 檢視所有的表 show tables 5 查詢表結構 desc mytest 表名 6 查詢表資料 select from myt...