在資料量特別大的情況下,資料來自hive的mapreduce查詢,
發現效率特別慢在hive上使用insert overwrite local directory "***" select將資料匯入到本地的hdfs上時直接報錯,
那麼我那麼就需要在hive和hadoop上配置壓縮方式
在執行hive的類sql語句之前,需開啟一下配置
2.對hive開啟以下配置
設定開啟hive的壓縮
set hive.exec.compress.output=true;
設定開啟mapreduce的壓縮
set mapreduce.output.fileoutputformat.compress=true;
配置reduce輸出使用的壓縮型別預設的是record
set mapreduce.output.fileoutputformat.compress.type=block;
1.對hadoop的core-site.xml配置如下
io.compression.codecs
org.apache.hadoop.io.compress.gzipcodec,
org.apache.hadoop.io.compress.defaultcodec,
org.apache.hadoop.io.compress.bzip2codec
還可以新增如下配置
org.apache.hadoop.io.compress.gzipcodec,
org.apache.hadoop.io.compress.lz4codec,
com.hadoop.compression.lzo.lzopcodec
hive壓縮設定
優點 1,減少儲存磁碟空間,降低單節點的磁碟io。2,由於壓縮後的資料占用的頻寬更少,因此可以加快資料在hadoop集群流動的速度。例如在不同節點建立3個replica的階段,或是shuffle階段。首先說明mapreduce哪些過程可以設定壓縮 需要分析處理的資料在進入map前可以壓縮,然後解壓處...
Hive 壓縮格式
常見壓縮格式 壓縮方式 壓縮比壓縮速度 解壓縮速度 是否可分割 gzip 13.4 21 mb s 118 mb s 否bzip2 13.2 2.4mb s 9.5mb s 是lzo 20.5 135 mb s 410 mb s 是22.2 172 mb s 409 mb s 否壓縮格式對應的編 解...
黑猴子的家 Hive 之 Hadoop壓縮配置
1 mr支援的壓縮編碼 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip gzip default gz否 bzip2 bzip2 bzip2 bz2 是lzo lzop lzo.lzo 否lz4 無lz4 lz4否無 否2 編碼 解碼器 為了支...