1、mr支援的壓縮編碼
壓縮格式
工具演算法
副檔名
是否可切分
default
無default
.deflate
否gzip
gzip
default
.gz否
bzip2
bzip2
bzip2
.bz2
是lzo
lzop
lzo.lzo
否lz4
無lz4
.lz4否無
否2、編碼/解碼器
為了支援多種壓縮/解壓縮演算法,hadoop引入了編碼/解碼器,如下表所示
壓縮格式
對應的編碼/解碼器
deflate
org.apache.hadoop.io.compress.defaultcodec
gzip
org.apache.hadoop.io.compress.gzipcodec
bzip2
org.apache.hadoop.io.compress.bzip2codec
lzocom.hadoop.compression.lzo.lzopcodec
lz4org.apache.hadoop.io.compress.lz4codec
3、壓縮效能的比較
壓縮演算法
原始檔案大小
壓縮檔案大小
壓縮速度
解壓速度
gzip
8.3gb
1.8gb
17.5mb/s
58mb/s
bzip2
8.3gb
1.1gb
2.4mb/s
9.5mb/s
lzo8.3gb
2.9gb
49.3mb/s
74.6mb/s
4、壓縮配置引數
要在hadoop中啟用壓縮,可以配置如下引數(mapred-site.xml檔案中)
引數預設值
階段建議
io.compression.codecs(在core-site.xml中配置)
org.apache.hadoop.io.compress.defaultcodec, org.apache.hadoop.io.compress.gzipcodec, org.apache.hadoop.io.compress.bzip2codec, org.apache.hadoop.io.compress.lz4codec
輸入壓縮
hadoop使用副檔名判斷是否支援某種編解碼器
mapreduce.map.output.compress
false
這個引數設為true啟用壓縮
mapreduce.map.output.compress.codec
org.apache.hadoop.io.compress.defaultcodec
mapreduce.output.fileoutputformat.compress
false
reducer輸出
這個引數設為true啟用壓縮
mapreduce.output.fileoutputformat.compress.codec
org.apache.hadoop.io.compress. defaultcodec
reducer輸出
使用標準工具或者編解碼器,如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type
record
reducer輸出
sequencefile輸出使用的壓縮型別:none和block
黑猴子的家 Hive 資料匯出
1 insert匯出 1 將查詢的結果匯出到本地 hive default insert overwrite local directory opt module datas export student select from student 2 將查詢的結果格式化匯出到本地 hive defau...
黑猴子的家 Hive 其它命令操作
1 退出hive視窗 hive default exit hive default quit 2 在hive cli命令視窗中如何檢視hdfs檔案系統 hive default dfs lsr 3 在hive cli命令視窗中如何檢視hdfs本地系統 hive default ls opt modu...
黑猴子的家 Hive 擴充套件專案一之環境準備
字段備註 詳細描述 video id 11位字串 uploader agecategory length views 次數 rate 滿分5分 ratings 流量conments related ids 2 使用者表 字段備註 字段型別 uploader 上傳者使用者名稱 string video...