hadoop壓縮彙總

2021-06-27 18:36:20 字數 2842 閱讀 6744

可以減少對集群磁碟空間的占用,減小平行計算資料傳輸時網路io

1.1安裝lzo-2.06.tar.gz

1.2步驟:解壓;進入lzo-2.06.

目錄;configure

;make && make install

1.3報錯處理:yum install gcc-c++

1.5然後利用hadoop

的編譯環境,進入解壓目錄輸入

mvn package

打包1.6最終在target

裡會有

(1)so檔案,即本地庫,將其拷到

/opt/hadoop-2.5.1/lib/native

目錄下

(2)jar包,將其拷到

/opt/hadoop-2.5.1/share/hadoop/common

目錄下1.1**(main方法)

public static void main(string args) throws exception 

job job = new job(conf, "vrv job");

conf.setboolean("mapreduce.map.output.compress", true);

job.setjarbyclass(wordcount.class);

job.setcombinerclass(intsumreducer.class);

job.setreducerclass(intsumreducer.class);

job.setoutputkeyclass(text.class);

job.setoutputvalueclass(intwritable.class);

for (int i = 0; i < otherargs.length - 2; ++i)

fileoutputformat.setoutputpath(job, new path(otherargs[otherargs.length - 2]));

// fileinputformat.addinputpath(job, new path("/qiaoting/input2"));

// fileoutputformat.setoutputpath(job, new path("/qiaoting/output"));

fileoutputformat.setcompressoutput(job, true);

class compresscla = class.forname(otherargs[otherargs.length - 1]);

fileoutputformat.setoutputcompressorclass(job, compresscla);

system.exit(job.waitforcompletion(true) ? 0 : 1);

}

1.2輸入命令hadoop jar qt.jar wordcount /qiaoting/input2 /qiaoting/output org.apache.hadoop.io.compress.lzocodec

結果截圖如下

結果截圖如下

1.3輸入命令hadoop jar qt.jar wordcount /qiaoting/input2 /qiaoting/output org.apache.hadoop.io.compress.bzip2codec

結果截圖如下

1.4輸入命令hadoop jar qt.jar wordcount /qiaoting/input2 /qiaoting/output org.apache.hadoop.io.compress.gzipcodec

結果截圖如下

輸入命令hadoop jar qt.jar wordcount /qiaoting/input2 /qiaoting/output org.apache.hadoop.io.compress.lz4codec

結果截圖如下

啟用job輸出壓縮

mapreduce.output.fileoutputformat.compress.type

record

預設是記錄壓縮

mapreduce.output.fileoutputformat.compress.codec

org.apache.hadoop.io.compress.defaultcodec

指定壓縮器,每種壓縮對應乙個壓縮器

mapreduce.map.output.compress

true

啟用map結果輸出壓縮

mapreduce.map.output.compress.codec

org.apache.hadoop.io.compress.defaultcodec

指定壓縮器

Hadoop壓縮格式

hadoop的常用壓縮格式 壓縮格式 可分割演算法 副檔名linux工具 gzip 否deflate gzgzip lzo是 加索引 lzo.lzo lzop否無 bzip2 是bzip2 bz2 bzip2 deflate 否deflate deflate 無zip 是zip zip zip各個壓...

Hadoop知識彙總

hadoop的兩大功能 海量資料儲存和海量資料分析 1 hdfs 分布式檔案系統海量資料儲存 3 yarn 資源排程管理集群 hdfs工作機制 基於namenode和datanode 1 namenode 響應客戶端的請求 負責維護整個hdfs檔案系統的目錄樹,以及每乙個路徑 檔案 所對應的bloc...

壓縮 解壓命令彙總

下面是蒐集的linux系統下,壓縮 解壓命令,以備參考使用。tar 解包 tar xvf filename.tar 打包 tar cvf filename.tar dirname tar cvf a.tar a.txt b.txt c.txt 注 tar是打包。不是壓縮!gz 解壓1 gunzip ...