名gzip
bzip2
lzohadoopcodec類
gzipcodec
bzip2codec
lzopcodec
演算法deflate
gzip2
lzo副檔名
.gz.bz2
.lzo
hadoop內嵌是是
否否可切片否是是
否壓縮比(測試值)
2 (13.4%)
1 (13.2%)
3 (20.5%)
4 (22.2%)
壓縮速率
3 (21mb/s)
4 (2.4mb/s)
2 (135mb/s)
1 (172mb/s)
解壓速率
3 (118mb/s)
4 (9.5mb/s)
1 (410mb/s)
2 (409mb/s)
特點gzip壓縮比高,大部分linux系統自帶gzip命令,hadoop原生就支援使用很方便;速度較慢,而且不支援切片。
bzip2壓縮比最高,但速度實在太慢了
壓縮比尚可,速度快,支援切片(需要建立索引,且檔案修改後要重建索引,還需將 inputformat 指定為lzo
)。支援hadoop native庫,但不是hadoop自帶,需要自己安裝。
使用場景
如果壓縮後大小和block差不多大可以使用。也適合磁碟不富裕要求壓縮比且對壓縮時間無特別要求的場景,如非同步離線壓縮歸檔,比如hbase寫入後的刷盤
適合很老的、極低頻使用的歷史檔案(冷資料)歸檔
特點是支援切片
實時寫入的hive底層hdfs檔案可用lzo方式壓縮
hadoop checknative
大資料中的壓縮
優點 節省磁碟空間,提公升磁碟利用率,加速磁碟 網路io 缺點 解壓 壓縮是需要cpu的,壓縮會使集群cpu利用率高,所以當集群負載高了就不要使用壓縮了 總結來說,需不需要使用壓縮是磁碟和cpu的取捨,也反映了大資料層面的任何調優都不是萬能的,都需要根據實際需求來做調優。從是否分片考慮 bzip2 ...
linux文件壓縮 解壓縮方式總結
tar 打包 tar cvf filename.tar dirname 解包 tar xvf filename.tar 注意 tar是打包,不是壓縮!gz 壓縮 gzip filename 解壓 gunzip filename gzip d filename tar.gz tgz 壓縮 tar zc...
大資料中的相關壓縮
可以在輸入端,中間資料和輸出資料段進行壓縮 並同步core site.xml到其他機器 io.compression.codecsname org.apache.hadoop.io.compress.gzipcodec,org.apache.hadoop.io.compress.defaultcod...