hive的資料壓縮格式和儲存格式

1.textfile：hive資料表的預設格式

可以使用gzip壓縮演算法，但壓縮後的檔案不支援split

2.sequencefile

sequence file是可分割的檔案格式，支援hadoop的block級壓縮。

3.rcfile

資料按行分塊，每塊按列儲存

4.orcfile

資料按行分塊，每塊按照列儲存

1.gzip壓縮

不支援split，當每個檔案壓縮之後在130m以內的（1個塊大小內），都可以考慮用gzip壓縮格式

2.zlib壓縮

支援orcfile格式，效能比gzip略高

3.lzo壓縮

支援split，是hadoop中最流行的壓縮格式，hadoop本身不支援，需要安裝

不支援split，hadoop本身不支援

應用場景：當mapreduce作業的map輸出的資料比較大的時候，作為map到reduce的中間資料的壓縮格式；或者作為乙個mapreduce作業的輸出和另外乙個mapreduce作業的輸入。

5.bzip2壓縮

支援split，hadoop本身支援

應用場景：適合對速度要求不高，但需要較高的壓縮率的時候

ods（dwd）資料來源層，因為資料量較大，可以採用orcfile+zlib的方式，以節省磁碟空間

ods層是原始資料，一般不允許修改，所以使用外部表保證資料的安全性，避免誤刪除；

。注意，設定orc壓縮格式前一定要先設定hive.exec.orc.compression.strategy，否則壓縮不生效：

hive資料壓縮

hive表通常壓縮為儲存為orc檔案，預設壓縮方法為zlib io.compression.codecs org.apache.hadoop.io.compress.defaultcodec 壓縮比約為11 建立orc壓縮表 create table zxdm dim.d acct info bac...

hive的資料壓縮

在實際工作當中，hive當中處理的資料，一般都需要經過壓縮，前期我們在學習hadoop的時候，已經配置過hadoop的壓縮，我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬壓縮格式工具演算法副檔名是否可切分 default 無default deflate 否gzip ...

hive的資料壓縮

3.通過hive shell開啟map輸出階段壓縮 4.開啟reduce輸出階段壓縮在實際工作當中，hive當中處理的資料，一般都需要經過壓縮，前期我們在學習hadoop的時候，已經配置過hadoop的壓縮，我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬壓縮格式工具演...

hive的資料壓縮格式和儲存格式

hive資料壓縮

hive的資料壓縮

hive的資料壓縮

相關推薦