減少儲存磁碟空間
降低io(網路的io和磁碟的io)
加快資料在磁碟和網路中的傳輸速度,從而提高系統的處理速度
由於使用資料時,需要先將資料解壓,加重cpu負荷
需要安裝;linux系統下沒有對應的命令d. bzip2
壓縮格式
優點缺點
gzip
壓縮比在四種壓縮方式中較高;hadoop本身支援,在應用中處理gzip格式的檔案就和直接處理文字一樣;有hadoop native庫;大部分linux系統都自帶gzip命令,使用方便
不支援split
lzo壓縮/解壓速度也比較快,合理的壓縮率;支援split,是hadoop中最流行的壓縮格式;支援hadoop native庫;需要在linux系統下自行安裝lzop命令,使用方便
壓縮率比gzip要低;hadoop本身不支援,需要安裝;lzo雖然支援split,但需要對lzo檔案建索引,否則hadoop也是會把lzo檔案看成乙個普通檔案(為了支援split需要建索引,需要指定inputformat為lzo格式)
壓縮速度快;支援hadoop native庫
不支援split;壓縮比低;hadoop本身不支援,
bzip2
支援split;具有很高的壓縮率,比gzip壓縮率都高;hadoop本身支援,但不支援native;在linux系統下自帶bzip2命令,使用方便
壓縮/解壓速度慢;不支援native
不同的場景選擇不同的壓縮方式,肯定沒有乙個一勞永逸的方法,如果選擇高壓縮比,那麼對於cpu的效能要求要高,同時壓縮、解壓時間耗費也多;選擇壓縮比低的,對於磁碟io、網路io的時間要多,空間佔據要多;對於支援分割的,可以實現並行處理。
應用場景:
一般在hdfs 、hive、hbase中會使用;
當然一般較多的是結合spark 來一起使用。
常見壓縮格式
缺點 壓縮格式 工具演算法 副檔名 是否可切分 對應的編碼 解碼器 org.apache.hadoop.io.compress.default 無default delete 否defaultcodec gzip gzip default gz否 gzipcodec bzip2 bzip2 bzip...
Hive常見的壓縮格式
io.compression.codecsname org.apache.hadoop.io.compress.gzipcodec,org.apache.hadoop.io.compress.defaultcodec,com.hadoop.compression.lzo.lzocodec,com.h...
Linux 常見壓縮格式詳解
在電腦科學和資訊理論中,資料壓縮或者源編碼是按照特定的編碼機制用比未經編碼少的資料位元 或者其它資訊相關的單位 表示資訊的過程。例如,如果我們將 compression 編碼為 comp 那麼這篇文章可以用較少的資料位表示。常見的例子是zip檔案格式,此格式不僅僅提供壓縮功能,還可作為歸檔工具 ar...