可以減少對集群磁碟空間的占用,減小平行計算資料傳輸時網路io
1.1安裝lzo-2.06.tar.gz
1.2步驟:解壓;進入lzo-2.06.
目錄;configure
;make && make install
1.3報錯處理:yum install gcc-c++
1.5然後利用hadoop
的編譯環境,進入解壓目錄輸入
mvn package
打包1.6最終在target
裡會有
(1)so檔案,即本地庫,將其拷到
/opt/hadoop-2.5.1/lib/native
目錄下
(2)jar包,將其拷到
/opt/hadoop-2.5.1/share/hadoop/common
目錄下1.1**(main方法)
public static void main(string args) throws exception
job job = new job(conf, "vrv job");
conf.setboolean("mapreduce.map.output.compress", true);
job.setjarbyclass(wordcount.class);
job.setcombinerclass(intsumreducer.class);
job.setreducerclass(intsumreducer.class);
job.setoutputkeyclass(text.class);
job.setoutputvalueclass(intwritable.class);
for (int i = 0; i < otherargs.length - 2; ++i)
fileoutputformat.setoutputpath(job, new path(otherargs[otherargs.length - 2]));
// fileinputformat.addinputpath(job, new path("/qiaoting/input2"));
// fileoutputformat.setoutputpath(job, new path("/qiaoting/output"));
fileoutputformat.setcompressoutput(job, true);
class compresscla = class.forname(otherargs[otherargs.length - 1]);
fileoutputformat.setoutputcompressorclass(job, compresscla);
system.exit(job.waitforcompletion(true) ? 0 : 1);
}
1.2輸入命令hadoop jar qt.jar wordcount /qiaoting/input2 /qiaoting/output org.apache.hadoop.io.compress.lzocodec
結果截圖如下
結果截圖如下
1.3輸入命令hadoop jar qt.jar wordcount /qiaoting/input2 /qiaoting/output org.apache.hadoop.io.compress.bzip2codec
結果截圖如下
1.4輸入命令hadoop jar qt.jar wordcount /qiaoting/input2 /qiaoting/output org.apache.hadoop.io.compress.gzipcodec
結果截圖如下
輸入命令hadoop jar qt.jar wordcount /qiaoting/input2 /qiaoting/output org.apache.hadoop.io.compress.lz4codec
結果截圖如下
啟用job輸出壓縮
mapreduce.output.fileoutputformat.compress.type
record
預設是記錄壓縮
mapreduce.output.fileoutputformat.compress.codec
org.apache.hadoop.io.compress.defaultcodec
指定壓縮器,每種壓縮對應乙個壓縮器
mapreduce.map.output.compress
true
啟用map結果輸出壓縮
mapreduce.map.output.compress.codec
org.apache.hadoop.io.compress.defaultcodec
指定壓縮器
Hadoop壓縮格式
hadoop的常用壓縮格式 壓縮格式 可分割演算法 副檔名linux工具 gzip 否deflate gzgzip lzo是 加索引 lzo.lzo lzop否無 bzip2 是bzip2 bz2 bzip2 deflate 否deflate deflate 無zip 是zip zip zip各個壓...
Hadoop知識彙總
hadoop的兩大功能 海量資料儲存和海量資料分析 1 hdfs 分布式檔案系統海量資料儲存 3 yarn 資源排程管理集群 hdfs工作機制 基於namenode和datanode 1 namenode 響應客戶端的請求 負責維護整個hdfs檔案系統的目錄樹,以及每乙個路徑 檔案 所對應的bloc...
壓縮 解壓命令彙總
下面是蒐集的linux系統下,壓縮 解壓命令,以備參考使用。tar 解包 tar xvf filename.tar 打包 tar cvf filename.tar dirname tar cvf a.tar a.txt b.txt c.txt 注 tar是打包。不是壓縮!gz 解壓1 gunzip ...