hive降io之壓縮和分布式快取

2021-07-23 06:16:20 字數 1088 閱讀 3553

有三種壓縮演算法

gzip

lzo企業中一般用後兩種方式

曾經用過lzo壓縮,常導致個別老機器down機

分布式快取:

共用20多個jar檔案

jar檔案被上傳上萬次,分發達上萬次(百g級)

hadoop jar 引用:

hadoop jar -libjars aa.jar bb.jar ...

jar包會上傳到hfs,然後分發到每個datanode

如何使這些jar包在hdfs上進行快取,只需上傳和分發一次,所有作業共享,從而減少不必要的上傳和分發?

mr作業的分布式快取(hadoop distributed cache的使用)

configuration conf = new configuration()

distributedcache.createsymlink(conf)

distributedcache.addcachefile(new uri("/user/bi/input/testfile#testfile"),conf);

//可以用testfile替代前面的檔案

job job = new job(conf)

//distributedcache的操作一定要放在job的初始化之前,否則會報出檔案找不到的異常

在map端開啟:

filereader fr = new filereader("testfile");

hive實現分布式快取:

hive作業的cli裡面有個命令:add jar...

add jar /opt/software/lib/udf.jar //這個動作已經是上傳到hdfs上的快取裡邊了,同時已經分發到每個節點上了

create temporary function getdate as 'com.test.getdate';

天天寫add jar很煩,所以用下面方式:

通過設定hive的配置檔案hive-site.xml加入,就是自動把jar包載入進去,用的時候就自動找到com.test.getdate這個類

hive.aux.jars.path

file:///opt/software/lib/udf.jar

分布式儲存恢復hbase和hive資料庫報告

儲存資料恢復初檢方式 根據與客戶 溝通及現場檢測,按故障表現,作如下判斷 故障表現 客戶共配置16臺伺服器節點,在每台物理伺服器儲存上,有大約3臺左右的虛擬機器,在虛擬機器上配置的分布式,上層部署的hbase資料庫和hive資料庫,資料庫底層檔案刪除,導致資料庫不能使用。經過現場對客戶環境的簡單檢測...

分布式系統之Paxos變種和優化

首先我們來回顧一下multi paxos,multi paxos在basic paxos的基礎上確定一系列值,其決議過程如下 multi paxos中leader用於避免活鎖,但leader的存在會帶來其他問題,一是如何選舉和保持唯一leader 雖然無leader或多leader不影響一致性,但影...

分布式原理之四 全域性狀態和快照記錄演算法

分布式計算系統包含了沒有共同的記憶體的,通過訊息傳遞通道彼此非同步通訊的,在空間上分隔的程序。每乙個分布式元件有它自己的本地狀態,其表現為本地記憶體以及活動記錄。通道的狀態表現為通過通道傳送和接收的訊息。分布式系統的全域性狀態是所有程序和通道的本地狀態的集合。記錄分布式系統的全域性狀態是乙個重要的范...