Hadoop壓縮格式

2021-09-20 13:23:45 字數 1021 閱讀 5015

hadoop的常用壓縮格式

壓縮格式

可分割演算法

副檔名linux工具

gzip

否deflate

.gzgzip

lzo是(加索引)

lzo.lzo

lzop否無

bzip2

是bzip2

.bz2

bzip2

deflate

否deflate

.deflate

無zip

是zip

.zip

zip各個壓縮格式的優缺點

壓縮格式

優點缺點

gzip

壓縮比在四種壓縮方式中較高;hadoop本身支援,在應用中處理gzip格式的檔案就和直接處理文字一樣;有hadoop native庫;大部分linux系統都自帶gzip命令,使用方便。

不支援split

lzo壓縮/解壓速度也比較快,合理的壓縮率;支援split,是hadoop中最流行的壓縮格式;支援hadoop native庫;需要在linux系統下自行安裝lzop命令,使用方便。

壓縮率比gzip要低;hadoop本身不支援,需要安裝;lzo雖然支援split,但需要對lzo檔案建索引,否則hadoop也是會把lzo檔案看成乙個普通檔案(為了支援split需要建索引,需要指定inputformat為lzo格式)

壓縮速度快;支援hadoop native庫。

不支援split;壓縮比低;hadoop本身不支援,需要安裝;linux系統下沒有對應的命令d. bzip2

bzip2

支援split;具有很高的壓縮率,比gzip壓縮率都高;hadoop本身支援,但不支援native;在linux系統下自帶bzip2命令,使用方便。

壓縮/解壓速度慢;不支援native

壓縮比對比圖

可見bzip2的壓縮率最高

解壓縮時間對比圖

hadoop壓縮彙總

可以減少對集群磁碟空間的占用,減小平行計算資料傳輸時網路io 1.1安裝lzo 2.06.tar.gz 1.2步驟 解壓 進入lzo 2.06.目錄 configure make make install 1.3報錯處理 yum install gcc c 1.5然後利用hadoop 的編譯環境,進...

Hadoop壓縮格式中「是否可切分」字段說明

檔案壓縮有兩個好處 減少儲存檔案所需的磁碟空間,並加速資料在網路和磁碟上的傳輸 在儲存中,所有演算法都要權衡空間 時間 在處理時,所有演算法都要權衡cpu 傳輸速度 以下列出了與hadoop結合使用的常見壓縮方法 壓縮格式 工具演算法 副檔名 是否可切分 deflate 無deflate defla...

hadoop之資料壓縮與資料格式

a.資料壓縮 優點 1.節省本地空間 2.節省頻寬 缺點 花時間 1.mr中允許進行資料壓縮的地方有三個 1 input起點 2 map處理之後 3 reduce處理之後進行儲存 2.壓縮格式 的型別。以下是它們的一些詳細引數 壓縮比壓縮速率 解壓速率 gzip deflate 13.4 21mb ...