hadoop中的檔案壓縮

1 減少磁碟的儲存空間

2 減少磁碟io和網路io

3 加快資料傳輸速度（磁碟和網路），如果小檔案多明顯檔案傳輸會明顯降低

1 考慮檔案的壓縮效率------》壓縮快慢

2 考慮檔案的壓縮比----------》解壓快慢

第一點好理解，壓縮的快肯定好

第二點是壓縮比，舉例現在有乙個10g的檔案，一種壓縮演算法能把他壓縮成1g，其他壓縮演算法能把他壓縮成3到6g，不能看到壓縮到1g的就是最好的。壓縮的檔案如果需要使用的，使用的一定需要先解壓，壓縮比這麼高，解壓的時候就會把cpu拉的特別高，解壓也會很慢，所以還要考慮檔案的解壓速度，伺服器的cpu能不能支援。

壓縮有兩種：無失真壓縮（lossless compression）和有失真壓縮（lossy compression），從英文名上應該更準確一些。

無失真壓縮一般適用於對資料要求比較高，不允許丟失的場景，我們的大資料選這種；

壓縮工具

演算法檔案字尾

支援分割

優點缺點

gzip

default

.gz否

解壓縮速度較好，系統支援好

不支援split

bzip

bzip2

.bz2

是壓縮比高

解壓縮慢

lzolzo

lzo.lzo

是解壓縮快

壓縮率相比較低

lz4lz4

lz4.lz4

否解壓縮速度快

壓縮比低，不支援split

n/a否

解壓縮最快，支援hadoop native庫

壓縮比最低，需要重新編譯hadoop，不支援split

hadoop 是不自帶snapy的壓縮的，需要重新編譯hadoop。

編譯成功後，工程中如果想使用snapy壓縮方式的話有以下兩種方法：

方法1 全域性的配置全部節點的mapred-site.xml配置

mapreduce.map.output.compress true mapreduce.map.output.compress.codec mapreduce.output.fileoutputformat.compress true mapreduce.output.fileoutputformat.compress.type record mapreduce.output.fileoutputformat.compress.codec

配置修改完一定要重新重啟集群

第2種在**中配置，可在run方法中配置 map 和reduce 都要配置

map的配置：

configuration configuration = new configuration();
configuration.set("mapreduce.map.output.compress","true");

reduce的配置：

configuration.set("mapreduce.output.fileoutputformat.compress","true");
configuration.set("mapreduce.output.fileoutputformat.compress.type","record");

推薦使用第二種配置，因為有些檔案不需要壓縮，在全域性配置檔案的配置可能並不需

hadoop中的檔案壓縮

Hadoop中的壓縮和解壓縮

hadoop壓縮彙總

Hadoop壓縮格式

hadoop中的檔案壓縮

Hadoop中的壓縮和解壓縮

hadoop壓縮彙總

Hadoop壓縮格式

相關推薦