hive表通常壓縮為儲存為orc檔案,預設壓縮方法為zlib(io.compression.codecs=org.apache.hadoop.io.compress.defaultcodec),壓縮比約為11%
hive查詢中間結果使用壓縮,作用於shuffle過程,減少網路io-- 建立orc壓縮表
create table `zxdm_dim.d_acct_info_backup_orc`(
`acct_id` string,
`acct_name` string,
`realness` string,
......
`cust_first_csm_ysgg_cpc_date` string)
stored as orc;
-- 向表中插入資料
insert into zxdm_dim.d_acct_info_backup_orc select * from zxdm_dim.d_acct_info_backup;
hdfs dfs -du -h /user/hive/warehouse/zxdm_dim.db/d_acct_info_backup_orc/
orc預設使用的演算法是zlib
900m->100m 2.5g->300m
如果使用的是預設設定,則即使表a為orc,使用create table b as select * from a;建立的表b仍然是textfile而不是orc。set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.lzocodec;
hive的資料壓縮
在實際工作當中,hive當中處理的資料,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip ...
hive的資料壓縮
3.通過hive shell開啟map輸出階段壓縮 4.開啟reduce輸出階段壓縮 在實際工作當中,hive當中處理的資料,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬 壓縮格式 工具 演...
Hive高階之資料壓縮詳解
一般在hadoop集群上執行乙個mapreduce會有以下步驟 input map shuffle reduce output 如果我們採用了資料壓縮,在map階段產生的資料大小就會減少,會減少磁碟的io,同時還能夠減少網路的io。hadoop集群中使用壓縮演算法的要求有以下4點 1.hadoop的...