在實際的生產環境運維乙個hadoop集群有一些必須要關注的事情。
1、namenode的高可靠性
2、節點配置與管理
3、mapreduce的記憶體配置
4、啟用trash
首要的是保證資料安全可靠,其次再去考慮儲存效率、計算效率、運維效率的優化與提高,當你覺得hadoop集群的效能太差太差的時候,其實是你對hadoop的了解太少,hadoop的效率沒有被發揮出來。
資料的可靠性,可以通過高可用、高可靠的namenode,以及具體資料多副本來實現。啟用trash可以讓你在誤刪除資料之後快要絕望的時候給你反悔的機會,這個一定要啟動的,就算你設定的時間短一點都沒有關係,後悔藥就靠它了。
節點的配置就太多了,最為重要當屬不同配置的機器要有自己個性化的配置了,尤其是記憶體的配置最為重要。
mapreduce: 提高mapreduce效能的七點建議[譯]
hadoop學習總結之五:hadoop的執行痕跡
hadoop管理員的十個最佳實踐
hadoop平台優化綜述(一)
hadoop維護管理
hadoop集群管理之 namenode恢復
hadoop集群管理之 新增節點datanode
hadoop集群管理之 刪除節點
hadoop集群管理之 hadoop**站trash
2012華東運維技術大會的資料--hadoop運維經驗分享
hadoop-0.20.2 作業記憶體控制策略
hadoop-0.21.0公平排程器演算法分析
apache hadoop的mail list
cloudera cdh google group
Hadoop 調優篇 運維視角
hadoop運維人員,負責為hadoop提供乙個高效和可靠的作業執行環境,很多時候,需要從全域性出發,通過調整一些關鍵引數以提供系統的效能和吞吐量.總體上看,hadoop運維需要從硬體選擇,作業系統引數調優,jvm引數調優,hadoop引數調優四個方面著手進行調優 1.硬體選擇 在硬體環境中,應著重...
hadoop系統運維 linux quta配置
1.客戶端 quta 配額修改 1 編輯賬戶 群組的閥值與寬限時間 用edquota去設定使用者myquota1的磁碟使用限制。七個欄位的意義分別是 1 檔案系統 filesystem 說明該限制值是針對哪個檔案系統 或 partition 2 磁碟容量 blocks 這個數值是 quota 自己算...
Hadoop運維記錄系列 十七
上個月通過email,幫朋友的朋友解決了乙個cloudera的spark sql無法訪問hbase做資料分析的問題,記錄一下。首先,對方已經做好了hive訪問hbase,所以spark sql原則上可以通過呼叫hive的元資料來訪問hbase。但是執行極慢,而且日誌無報錯。中間都是郵件溝通,先問了幾...