引言:在公司資料遷移時,對distcp這個命令嘗試了n多次,總算對他的工作原理有點心得。
1、首先確保兩個集群的mapreduce計算框架沒問題
2、開通目標集群所有機器到源集群namenode節點的網路
3、版本差距不是很大時,用
sudo -u hdfs hadoop distcp -i hdfs: hdfs:
4、在ambari在的節點上使用命令,只有該節點可以免密登入其他機器
5、檔案拷貝的路徑需要寫namenode存在節點,因為只用它開啟了rpc埠
distcp使用紀要
distcp主要用於在hadoop集群之間拷貝資料。1,如果haboop版本相同,可以使用如下格式 hadoop distcp hdfs src hdfs des 2,如果在不同版本的hadoop集群之間拷貝資料,可以使用如下格式 hadoop distcp i hftp src hdfs des ...
distcp資料遷移方案
資料遷移distcp方案 根據遷移的實際情況,由於資料量大 重要 迫切性,因此實施方案每一步都需嚴謹執行,並且當出錯時清楚缺少的資料和補救的辦法。大的步驟分為3步,即export distcp import。在export匯出資料時,以時間戳作為引數,如將三個月的資料為乙個單位匯出,出錯時,重複執行...
跨集群 distcp命令
兩個集群之間做資料同步,而且兩個集群之間的版本不一致,這個時候使用的是hftp協議或者webhdfs協議!如果試圖在兩個執行著不同hdfs版本的集群上使用distcp命令來複製資料並使用hdfs協議,複製作業會失敗,因為兩個系統版本的rpc是不相容的。要想彌補這種情況,1 使用htfp協議 可以使用...