冷資料集群調研和實現

與普通hdfs對比，冷資料集群目的是不降低資料可靠性的前提下，減少磁碟開銷。

經過facebook-hadoop版本和apache-hadoop（0.20至0.23）版本的比較，最後選型為facebook-hadoop版本。原因是apache-hadoop版本有許多缺陷，比如raidnode客戶端沒有實現placementmonitor，raidshell終端命令少的不忍直視(以後不好運維)，bug太多等等。還有乙個重要的原因考慮到facebook-hadoop版本facebook已經在成熟的運用之中。

目前狀況：

經過乙個多月的研究和debug，facebook-raid冷資料集群已經搭建成功。不過在這過程中，遇到各種問題：

1. 編譯問題

2. 網上講的raid.xml配置和源**的實現不一樣

3. blockmissingexception類路徑不一致

4. raidnode客戶端fs.hdfs.impl要配置成org.apache.hadoop.hdfs.distributedfilesystem

fs.hdfs.impl

org.apache.hadoop.hdfs.distributedfilesystem

5. native包系統不相容問題

6. 資料塊分布問題，原始碼的實現是將資料塊分布在不同機架上，需要將這個限制去掉，只保留分布到不同機器的原則就行。

總之是發現各種坑，不過原始碼的邏輯是比較清晰的。

目前成果：

實現冷資料facebook-raid集群的搭建，raid策略，每個stripe組4個資料塊，校驗塊2個。相對於原來的hdfs集群3個副本的備份配置（總共佔了300%的空間），facebook-raid總共只需要占用150%空間就能達到同樣的效果，同樣允許2臺機器掛掉。

下圖是冷資料集群管理, 資料上下線功能及任務程序追蹤功能

冷資料集群調研和實現

結合Apache和Tomcat實現集群和負載均衡

結合Apache和Tomcat實現集群和負載均衡

輕鬆實現Apache,Tomcat集群和負載均衡

冷資料集群調研和實現

結合Apache和Tomcat實現集群和負載均衡

結合Apache和Tomcat實現集群和負載均衡

輕鬆實現Apache,Tomcat集群和負載均衡

相關推薦