冷資料集群調研和實現

2021-09-02 03:41:13 字數 972 閱讀 3251

與普通hdfs對比,冷資料集群目的是不降低資料可靠性的前提下,減少磁碟開銷。

經過facebook-hadoop版本和apache-hadoop(0.20至0.23)版本的比較,最後選型為facebook-hadoop版本。原因是apache-hadoop版本有許多缺陷,比如raidnode客戶端沒有實現placementmonitor,raidshell終端命令少的不忍直視(以後不好運維),bug太多等等。還有乙個重要的原因考慮到facebook-hadoop版本facebook已經在成熟的運用之中。

目前狀況:

經過乙個多月的研究和debug,facebook-raid冷資料集群已經搭建成功。不過在這過程中,遇到各種問題:

1. 編譯問題

2. 網上講的raid.xml配置和源**的實現不一樣

3. blockmissingexception類路徑不一致

4. raidnode客戶端fs.hdfs.impl要配置成org.apache.hadoop.hdfs.distributedfilesystem

fs.hdfs.impl

org.apache.hadoop.hdfs.distributedfilesystem

5. native包系統不相容問題

6. 資料塊分布問題,原始碼的實現是將資料塊分布在不同機架上,需要將這個限制去掉,只保留分布到不同機器的原則就行。

總之是發現各種坑,不過原始碼的邏輯是比較清晰的。

目前成果:

實現冷資料facebook-raid集群的搭建,raid策略,每個stripe組4個資料塊,校驗塊2個。相對於原來的hdfs集群3個副本的備份配置(總共佔了300%的空間),facebook-raid總共只需要占用150%空間就能達到同樣的效果,同樣允許2臺機器掛掉。

下圖是冷資料集群管理, 資料上下線功能及任務程序追蹤功能

結合Apache和Tomcat實現集群和負載均衡

本文基本參考自 輕鬆實現apache,tomcat集群和負載均衡,經由實操經歷記錄而成,碰到些出入,以及個別地方依據個人的習慣,所以在一定程度上未能保持原文的完整性,還望原著者海涵。一 軟體環境 二 負載均衡 用apache進行分流,把請求按照權重以及當時負荷分tomcat1,tomcat2.去處理...

結合Apache和Tomcat實現集群和負載均衡

一 軟體環境 二 負載均衡 用apache進行分流,把請求按照權重以及當時負荷分tomcat1,tomcat2.去處理 1.安裝apache,tomcat 我把apache安裝在d apache group apache2 解壓兩分tomcat,分別在 d apache group tomcat5 ...

輕鬆實現Apache,Tomcat集群和負載均衡

輕鬆實現apache,tomcat集群和負載均衡 2006 11 18 12 15 0,環境說明 apache apache 2.0.55 1 個 tomcat apache tomcat 5.5.17 zip版 2個 mod jk mod jk apache 2.0.55.so 1個 第一部分 負...