和偽分布式比較像,主要記錄幾個需要注意的問題:
1.etc/hosts的設定
需要把相關集群的機器都新增進去
for example :
192.168.01 node0 node0
2.dfs.name.dir的配置
這是最坑爹的乙個,我是在建立好相應的目錄以後去設定的value,結果在 hadoop namenode -format時總是失敗。
網上看到一些說刪除tmp目錄下的檔案就可以解決,可我是在第一次就格式化失敗,很無語啊。
其目錄應該不要手動建立,否則會在 hadoop namenode -format是失敗。
網上看到解釋是:hadoop這樣做的目的是防止錯誤地將已
存在的集群格式化
了同樣的道理,重新格式化時,也應該刪除 $dfs.name.dir(推測)
3.從hdfs上拉資料到本地時,如果使用如下命令
hadoop fs -get output output
會在本地output資料夾下再建立乙個output目錄,而這往往不是我們的本意
如果不想多乙個output目錄,可以用如下命令
hadoop fs -get output/* output
分布式部署
一 分布式架構和部署 1 如何進行分布式部署 2 系統拆分後,模組之間如何相互呼叫 3 如何進行統一的會話 session 管理 4 如何實現單點登入 5 如何保證一致性更新 6 如何規劃和處理分布式事務 7 如何對重要服務實現ha 二 高併發和web層的效能優化 1 高併發的處理 2 nginx的...
hadoop分布式安裝
工欲善其事,必先利其器。在資料橫行的時代,我們的大神hadoop 出來了,作為分布式處理資料 不但快,而且一般用配置不高的電腦業可以做集群。那麼,現在就開始安裝我們的hadoop 進入hadoop之旅 檔案,這裡就去 apache 的命令進行解壓 tar zxvf hadoop x.tar.gz 好...
hadoop分布式快取
概念 使用distributedcache方法 1.在main方法中載入共享檔案的hdfs路徑,路徑可以是目錄也可以是檔案。可以在路徑中末位追加 別名,在map階段可以使用該別名 string cache hdfs cache cache myfile myfile是別名job.addcachefi...