Hadoop中的壓縮（1）概述與例項

檔案壓縮主要有兩個好處，一是減少了儲存檔案所佔空間，另乙個就是為資料傳輸提速。在hadoop大資料的背景下這兩點尤為重要。

hadoop裡支援很多種壓縮格式：

deflate是同時使用了lz77演算法與哈夫曼編碼（huffman coding）的乙個無損資料壓縮演算法，源**可以在zlib庫中找到。gzip是以deflate演算法為基礎擴充套件出來的一種演算法。

壓縮演算法

原始檔案大小

壓縮後的檔案大小

壓縮速度

解壓縮速度

gzip　　

8.3gb　　

1.8gb

17.5mb/s

58mb/s

bzip2

8.3gb

1.1gb

2.4mb/s

9.5mb/s

lzo-bset

8.3gb

2gb4mb/s

60.6mb/s

lzo8.3gb

2.9gb

49.3mb/s

74.6mb/s

所有的壓縮演算法都是空間和時間的轉換，更快壓縮時間還是更小的壓縮比，可以通過引數來指定，－1意味著速度，－9意味著空間。拿gzip做個例子，下面就意味著更快速的壓縮：gzip -1 file

舉例乙個未壓縮的檔案有1gb大小，hdfs預設的block大小是64mb,那麼這個檔案就會被分為16個block作為mapreduce的輸入，每乙個單獨使用乙個map任務。若該檔案是已經使用gzip壓縮的呢，若分成16個塊，每個塊做成乙個輸入，顯然是不合適的，因為gzip壓縮流的隨即讀是不可能的。實際上，當mapreduce處理壓縮格式的檔案的時候它會認識到這是乙個gzip的壓縮檔案，而gzip又不支援隨即讀，它就會把16個塊分給乙個map去處理，這裡就會有很多非本地處理的map任務，整個過程耗費的時間就會相當長。

lzo壓縮格式也會是同樣的問題，但是通過使用hadoop lzo庫的索引工具以後，lzo就可以支援splittable。bzip2也是支援splittable的。

詳見hadoop-2.5.2-src原始碼中的fileinputformat類中的getsplits方法

if (issplitable(fs, path)) 
if (bytesremaining != 0) 
} else

codec其實就是coder和decoder兩個單詞的詞頭組成的縮略詞。compressioncodec定義了壓縮和解壓介面，所以又叫編碼解碼器。為了支援多種壓縮/解壓縮演算法，hadoop引入了編碼/解碼器，如下表所示

壓縮格式

對應的編碼/解碼器

deflate

org.apache.hadoop.io.compress.defaultcodec

gzip

org.apache.hadoop.io.compress.gzipcodec

bzip

org.apache.hadoop.io.compress.bzip2codec

public class testcompress 
/*** 壓縮方法
* @param filename 待壓縮的檔案路徑
* @param method 壓縮方法名
*/public static void compress(string filepath, string method)
throws classnotfoundexception, ioexception 
/*** 解壓方法
* @param filename 待解壓的檔案
*/public static void decompres(string filepath) throws filenotfoundexception,
ioexception 
// 獲取輸入流
inputstream cin = codec
.createinputstream(new fileinputstream(filepath));
// 輸出檔案
file fout = new file(filepath + ".decoded");
outputstream out = new fileoutputstream(fout);
ioutils.copybytes(cin, out, 1024 * 1024 * 5, false);
system.out.println("decompres success");
cin.close();
out.close();
}}

Hadoop中的壓縮（1）概述與例項

hadoop中的檔案壓縮

Hadoop中的壓縮和解壓縮

《卷積神經網路的壓縮與加速》概述

Hadoop中的壓縮（1） 概述與例項

hadoop中的檔案壓縮

Hadoop中的壓縮和解壓縮

《卷積神經網路的壓縮與加速》概述

相關推薦

Hadoop中的壓縮（1）概述與例項