hive的資料壓縮格式和儲存格式

2021-10-23 14:27:02 字數 831 閱讀 9880

1.textfile:hive資料表的預設格式

可以使用gzip壓縮演算法,但壓縮後的檔案不支援split

2.sequencefile

sequence file是可分割的檔案格式,支援hadoop的block級壓縮。

3.rcfile

資料按行分塊,每塊按列儲存

4.orcfile

資料按行分塊,每塊按照列儲存

1.gzip壓縮

不支援split,當每個檔案壓縮之後在130m以內的(1個塊大小內),都可以考慮用gzip壓縮格式

2.zlib壓縮

支援orcfile格式,效能比gzip略高

3.lzo壓縮

支援split,是hadoop中最流行的壓縮格式,hadoop本身不支援,需要安裝

不支援split,hadoop本身不支援

應用場景:當mapreduce作業的map輸出的資料比較大的時候,作為map到reduce的中間資料的壓縮格式;或者作為乙個mapreduce作業的輸出和另外乙個mapreduce作業的輸入。

5.bzip2壓縮

支援split,hadoop本身支援

應用場景:適合對速度要求不高,但需要較高的壓縮率的時候

ods(dwd)資料來源層,因為資料量較大,可以採用orcfile+zlib的方式,以節省磁碟空間

ods層是原始資料,一般不允許修改,所以使用外部表保證資料的安全性,避免誤刪除;

注意,設定orc壓縮格式前一定要先設定hive.exec.orc.compression.strategy,否則壓縮不生效:

hive資料壓縮

hive表通常壓縮為儲存為orc檔案,預設壓縮方法為zlib io.compression.codecs org.apache.hadoop.io.compress.defaultcodec 壓縮比約為11 建立orc壓縮表 create table zxdm dim.d acct info bac...

hive的資料壓縮

在實際工作當中,hive當中處理的資料,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip ...

hive的資料壓縮

3.通過hive shell開啟map輸出階段壓縮 4.開啟reduce輸出階段壓縮 在實際工作當中,hive當中處理的資料,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬 壓縮格式 工具 演...