1.textfile:hive資料表的預設格式
可以使用gzip壓縮演算法,但壓縮後的檔案不支援split
2.sequencefile
sequence file是可分割的檔案格式,支援hadoop的block級壓縮。
3.rcfile
資料按行分塊,每塊按列儲存
4.orcfile
資料按行分塊,每塊按照列儲存
1.gzip壓縮
不支援split,當每個檔案壓縮之後在130m以內的(1個塊大小內),都可以考慮用gzip壓縮格式
2.zlib壓縮
支援orcfile格式,效能比gzip略高
3.lzo壓縮
支援split,是hadoop中最流行的壓縮格式,hadoop本身不支援,需要安裝
不支援split,hadoop本身不支援
應用場景:當mapreduce作業的map輸出的資料比較大的時候,作為map到reduce的中間資料的壓縮格式;或者作為乙個mapreduce作業的輸出和另外乙個mapreduce作業的輸入。
5.bzip2壓縮
支援split,hadoop本身支援
應用場景:適合對速度要求不高,但需要較高的壓縮率的時候
ods(dwd)資料來源層,因為資料量較大,可以採用orcfile+zlib的方式,以節省磁碟空間
ods層是原始資料,一般不允許修改,所以使用外部表保證資料的安全性,避免誤刪除;
。注意,設定orc壓縮格式前一定要先設定hive.exec.orc.compression.strategy,否則壓縮不生效:
hive資料壓縮
hive表通常壓縮為儲存為orc檔案,預設壓縮方法為zlib io.compression.codecs org.apache.hadoop.io.compress.defaultcodec 壓縮比約為11 建立orc壓縮表 create table zxdm dim.d acct info bac...
hive的資料壓縮
在實際工作當中,hive當中處理的資料,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip ...
hive的資料壓縮
3.通過hive shell開啟map輸出階段壓縮 4.開啟reduce輸出階段壓縮 在實際工作當中,hive當中處理的資料,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬 壓縮格式 工具 演...