有三種壓縮演算法
gzip
lzo企業中一般用後兩種方式
曾經用過lzo壓縮,常導致個別老機器down機
分布式快取:
共用20多個jar檔案
jar檔案被上傳上萬次,分發達上萬次(百g級)
hadoop jar 引用:
hadoop jar -libjars aa.jar bb.jar ...
jar包會上傳到hfs,然後分發到每個datanode
如何使這些jar包在hdfs上進行快取,只需上傳和分發一次,所有作業共享,從而減少不必要的上傳和分發?
mr作業的分布式快取(hadoop distributed cache的使用)
configuration conf = new configuration()
distributedcache.createsymlink(conf)
distributedcache.addcachefile(new uri("/user/bi/input/testfile#testfile"),conf);
//可以用testfile替代前面的檔案
job job = new job(conf)
//distributedcache的操作一定要放在job的初始化之前,否則會報出檔案找不到的異常
在map端開啟:
filereader fr = new filereader("testfile");
hive實現分布式快取:
hive作業的cli裡面有個命令:add jar...
add jar /opt/software/lib/udf.jar //這個動作已經是上傳到hdfs上的快取裡邊了,同時已經分發到每個節點上了
create temporary function getdate as 'com.test.getdate';
天天寫add jar很煩,所以用下面方式:
通過設定hive的配置檔案hive-site.xml加入,就是自動把jar包載入進去,用的時候就自動找到com.test.getdate這個類
hive.aux.jars.path
file:///opt/software/lib/udf.jar
分布式儲存恢復hbase和hive資料庫報告
儲存資料恢復初檢方式 根據與客戶 溝通及現場檢測,按故障表現,作如下判斷 故障表現 客戶共配置16臺伺服器節點,在每台物理伺服器儲存上,有大約3臺左右的虛擬機器,在虛擬機器上配置的分布式,上層部署的hbase資料庫和hive資料庫,資料庫底層檔案刪除,導致資料庫不能使用。經過現場對客戶環境的簡單檢測...
分布式系統之Paxos變種和優化
首先我們來回顧一下multi paxos,multi paxos在basic paxos的基礎上確定一系列值,其決議過程如下 multi paxos中leader用於避免活鎖,但leader的存在會帶來其他問題,一是如何選舉和保持唯一leader 雖然無leader或多leader不影響一致性,但影...
分布式原理之四 全域性狀態和快照記錄演算法
分布式計算系統包含了沒有共同的記憶體的,通過訊息傳遞通道彼此非同步通訊的,在空間上分隔的程序。每乙個分布式元件有它自己的本地狀態,其表現為本地記憶體以及活動記錄。通道的狀態表現為通過通道傳送和接收的訊息。分布式系統的全域性狀態是所有程序和通道的本地狀態的集合。記錄分布式系統的全域性狀態是乙個重要的范...