hive降io之壓縮和分布式快取

有三種壓縮演算法

gzip

lzo企業中一般用後兩種方式

曾經用過lzo壓縮，常導致個別老機器down機

分布式快取：

共用20多個jar檔案

jar檔案被上傳上萬次，分發達上萬次（百g級）

hadoop jar 引用：

hadoop jar -libjars aa.jar bb.jar ...

jar包會上傳到hfs，然後分發到每個datanode

如何使這些jar包在hdfs上進行快取，只需上傳和分發一次，所有作業共享，從而減少不必要的上傳和分發？

mr作業的分布式快取（hadoop distributed cache的使用）

configuration conf = new configuration()

distributedcache.createsymlink(conf)

distributedcache.addcachefile(new uri("/user/bi/input/testfile#testfile"),conf);

//可以用testfile替代前面的檔案

job job = new job(conf)

//distributedcache的操作一定要放在job的初始化之前，否則會報出檔案找不到的異常

在map端開啟：

filereader fr = new filereader("testfile");

hive實現分布式快取：

hive作業的cli裡面有個命令：add jar...

add jar /opt/software/lib/udf.jar //這個動作已經是上傳到hdfs上的快取裡邊了，同時已經分發到每個節點上了

create temporary function getdate as 'com.test.getdate';

天天寫add jar很煩，所以用下面方式：

通過設定hive的配置檔案hive-site.xml加入，就是自動把jar包載入進去，用的時候就自動找到com.test.getdate這個類

hive.aux.jars.path

file:///opt/software/lib/udf.jar

分布式儲存恢復hbase和hive資料庫報告

儲存資料恢復初檢方式根據與客戶溝通及現場檢測，按故障表現，作如下判斷故障表現客戶共配置16臺伺服器節點，在每台物理伺服器儲存上，有大約3臺左右的虛擬機器，在虛擬機器上配置的分布式，上層部署的hbase資料庫和hive資料庫，資料庫底層檔案刪除，導致資料庫不能使用。經過現場對客戶環境的簡單檢測...

分布式系統之Paxos變種和優化

首先我們來回顧一下multi paxos，multi paxos在basic paxos的基礎上確定一系列值，其決議過程如下 multi paxos中leader用於避免活鎖，但leader的存在會帶來其他問題，一是如何選舉和保持唯一leader 雖然無leader或多leader不影響一致性，但影...

分布式原理之四全域性狀態和快照記錄演算法

分布式計算系統包含了沒有共同的記憶體的，通過訊息傳遞通道彼此非同步通訊的，在空間上分隔的程序。每乙個分布式元件有它自己的本地狀態，其表現為本地記憶體以及活動記錄。通道的狀態表現為通過通道傳送和接收的訊息。分布式系統的全域性狀態是所有程序和通道的本地狀態的集合。記錄分布式系統的全域性狀態是乙個重要的范...

hive降io之壓縮和分布式快取

分布式儲存恢復hbase和hive資料庫報告

分布式系統之Paxos變種和優化

分布式原理之四 全域性狀態和快照記錄演算法

相關推薦

分布式原理之四全域性狀態和快照記錄演算法