從儲存檔案的壓縮比和查詢速度兩個角度對比
1)測試資料
2)textfile
(a)建立表,儲存資料格式為textfile
create table log_text (
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)row format delimited fields terminated by '\t'
stored as textfile ;
(b)向表中載入資料
hive (default)> load data local inpath '/opt/module/datas/log.data' into table log_text ;
(c)檢視表中資料大小
dfs -du -h /user/hive/warehouse/log_text;
18.1 m /user/hive/warehouse/log_text/log.data
3)orc
(a)建立表,儲存資料格式為orc
create table log_orc(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)row format delimited fields terminated by '\t'
stored as orc ;
(b)向表中載入資料
insert into table log_orc select * from log_text ;
(c)檢視表中資料大小
dfs -du -h /user/hive/warehouse/log_orc/ ;
2.8 m /user/hive/warehouse/log_orc/000000_0
4)parquet
(a)建立表,儲存資料格式為parquet
create table log_parquet(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)row format delimited fields terminated by '\t'
stored as parquet ;
(b)向表中載入資料
insert into table log_parquet select * from log_text ;
(c)檢視表中資料大小
dfs -du -h /user/hive/warehouse/log_parquet/ ;
13.1 m /user/hive/warehouse/log_parquet/000000_0
5)儲存檔案的壓縮比總結
orc > parquet > textfile
1)textfile
hive (default)> select count(*) from log_text;
_c0100000
time taken: 20.346 seconds, fetched: 1 row(s)
2)orc
hive (default)> select count(*) from log_orc;
_c0100000
time taken: 20.174 seconds, fetched: 1 row(s)
3)parquet
hive (default)> select count(*) from log_parquet;
_c0100000
time taken: 20.149 seconds, fetched: 1 row(s)
4)儲存檔案的查詢速度總結
orc > textfile > parquet
黑猴子的家 Hive 資料匯出
1 insert匯出 1 將查詢的結果匯出到本地 hive default insert overwrite local directory opt module datas export student select from student 2 將查詢的結果格式化匯出到本地 hive defau...
黑猴子的家 Hive 其它命令操作
1 退出hive視窗 hive default exit hive default quit 2 在hive cli命令視窗中如何檢視hdfs檔案系統 hive default dfs lsr 3 在hive cli命令視窗中如何檢視hdfs本地系統 hive default ls opt modu...
黑猴子的家 Hive 之 Hadoop壓縮配置
1 mr支援的壓縮編碼 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip gzip default gz否 bzip2 bzip2 bzip2 bz2 是lzo lzop lzo.lzo 否lz4 無lz4 lz4否無 否2 編碼 解碼器 為了支...