缺點:壓縮格式
工具演算法
副檔名
是否可切分
對應的編碼/解碼器(org.apache.hadoop.io.compress.)
default
無default
.delete
否defaultcodec
gzip
gzip
default
.gz否
gzipcodec
bzip2
bzip2*
bzip2*
.bz2
是bzipcodec
lzolzop
lzo.lzo
是(加索引)
lzopcodec
lz4無
lz4lz4
否lz4codec無否
壓縮格式
codec類
演算法副檔名
多檔案splitable
native
工具hadoop自帶
gzip
gzipcodec
deflate
.gz否否是
gzip
是bzip2
bzip2codec
bzip2
.bz2是是
否bzip2
是lzo
lzopcodec
lzo.lzo否是
是lzop否否
否是無否
bzip2
lzo對比
壓縮格式
優點缺點
gzip
壓縮比在四種壓縮方式中較高;hadoop本身支援,在應用中處理gzip格式的檔案就和直接處理文字一樣;有hadoop native庫;大部分linux系統都自帶gzip命令,使用方便。
不支援split
lzo壓縮/解壓速度也比較快,合理的壓縮率;支援split,是hadoop中最流行的壓縮格式;支援hadoop native庫;需要在linux系統下自行安裝lzop命令,使用方便
壓縮率比gzip要低;hadoop本身不支援,需要安裝;lzo雖然支援split,但需要對lzo檔案建索引,否則hadoop也是會把lzo檔案看成乙個普通檔案(為了支援split需要建索引,需要指定inputformat為lzo格式)
壓縮速度快;支援hadoop native庫
不支援split;壓縮比低;hadoop本身不支援,
bzip2
支援split;具有很高的壓縮率,比gzip壓縮率都高;hadoop本身支援,但不支援native;在linux系統下自帶bzip2命令,使用方便
支援split,壓縮/解壓速度慢;不支援native
壓縮格式
壓縮比壓縮速率
解壓速率
gzip/deflate
13.4%
21 mb/s
118 mb/s
bzip2
13.2%
2.4 mb/s
9.5 mb/s
lzo20.5%
135 mb/s
410 mb/s
22.2%
172 mb/s
409 mb/s
選擇高壓縮比gzip或者bzip2的原因有二:
為什麼每個reduce端壓縮後的資料不要超過乙個block的大小呢?
常見的壓縮格式
減少儲存磁碟空間 降低io 網路的io和磁碟的io 加快資料在磁碟和網路中的傳輸速度,從而提高系統的處理速度 由於使用資料時,需要先將資料解壓,加重cpu負荷 需要安裝 linux系統下沒有對應的命令d.bzip2 壓縮格式 優點缺點 gzip 壓縮比在四種壓縮方式中較高 hadoop本身支援,在應...
Hive常見的壓縮格式
io.compression.codecsname org.apache.hadoop.io.compress.gzipcodec,org.apache.hadoop.io.compress.defaultcodec,com.hadoop.compression.lzo.lzocodec,com.h...
Linux 常見壓縮格式詳解
在電腦科學和資訊理論中,資料壓縮或者源編碼是按照特定的編碼機制用比未經編碼少的資料位元 或者其它資訊相關的單位 表示資訊的過程。例如,如果我們將 compression 編碼為 comp 那麼這篇文章可以用較少的資料位表示。常見的例子是zip檔案格式,此格式不僅僅提供壓縮功能,還可作為歸檔工具 ar...