黑猴子的家 Hive 主流檔案儲存格式對比實驗

2021-08-30 08:44:13 字數 2414 閱讀 5698

從儲存檔案的壓縮比和查詢速度兩個角度對比

1)測試資料

2)textfile

(a)建立表,儲存資料格式為textfile

create table log_text (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)row format delimited fields terminated by '\t'

stored as textfile ;

(b)向表中載入資料

hive (default)> load data local inpath '/opt/module/datas/log.data' into table log_text ;
(c)檢視表中資料大小

dfs -du -h /user/hive/warehouse/log_text;

18.1 m /user/hive/warehouse/log_text/log.data

3)orc

(a)建立表,儲存資料格式為orc

create table log_orc(

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)row format delimited fields terminated by '\t'

stored as orc ;

(b)向表中載入資料

insert into table log_orc select * from log_text ;
(c)檢視表中資料大小

dfs -du -h /user/hive/warehouse/log_orc/ ;

2.8 m /user/hive/warehouse/log_orc/000000_0

4)parquet

(a)建立表,儲存資料格式為parquet

create table log_parquet(

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)row format delimited fields terminated by '\t'

stored as parquet ;

(b)向表中載入資料

insert into table log_parquet select * from log_text ;
(c)檢視表中資料大小

dfs -du -h /user/hive/warehouse/log_parquet/ ;

13.1 m /user/hive/warehouse/log_parquet/000000_0

5)儲存檔案的壓縮比總結

orc >  parquet >  textfile
1)textfile

hive (default)> select count(*) from log_text;

_c0100000

time taken: 20.346 seconds, fetched: 1 row(s)

2)orc

hive (default)> select count(*) from log_orc;

_c0100000

time taken: 20.174 seconds, fetched: 1 row(s)

3)parquet

hive (default)> select count(*) from log_parquet;

_c0100000

time taken: 20.149 seconds, fetched: 1 row(s)

4)儲存檔案的查詢速度總結

orc > textfile > parquet

黑猴子的家 Hive 資料匯出

1 insert匯出 1 將查詢的結果匯出到本地 hive default insert overwrite local directory opt module datas export student select from student 2 將查詢的結果格式化匯出到本地 hive defau...

黑猴子的家 Hive 其它命令操作

1 退出hive視窗 hive default exit hive default quit 2 在hive cli命令視窗中如何檢視hdfs檔案系統 hive default dfs lsr 3 在hive cli命令視窗中如何檢視hdfs本地系統 hive default ls opt modu...

黑猴子的家 Hive 之 Hadoop壓縮配置

1 mr支援的壓縮編碼 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip gzip default gz否 bzip2 bzip2 bzip2 bz2 是lzo lzop lzo.lzo 否lz4 無lz4 lz4否無 否2 編碼 解碼器 為了支...