乙個助Hadoop集群資料快速上雲工具

越來越多的公司和企業希望將業務遷移到雲上，同時業務資料也希望能更順暢的遷移到雲上。

當前業界有很多公司是以hadoop技術構建資料中心，所以本文將**如何快速的將hadoop檔案系統（hdfs）上的資料遷移到雲上。

本文介紹乙個從hadoop集群直接遷移資料到oss上的工具，該工具由阿里雲e-mapreduce團隊開發，基於hadoop社群中常用的distcp工具，並從e-mapreduce產品中剝離出了乙個常見的功能，做成工具開放給全體阿里雲客戶使用。

2) hdfs資料複製到oss上：

cd emr-tools

./hdfs2oss4emr.sh /path/on/hdfs oss:

其中accesskeyid和accesskeysecret是你訪問阿里雲api（包括oss等雲產品）的金鑰，bucket-name.oss-cn-hangzhou.aliyuncs.com是oss的訪問網域名稱，包括bucket名稱和所在region的endpoint位址。如果引數都正確，則會啟動乙個hadoop mapreduce任務（distcp），作業執行完畢之後會列印本次資料遷移的資訊：

作業完成後，可以用osscmd等工具檢視oss上資料情況：

osscmd ls oss://bucket-name/path/on/oss

3) oss資料複製到hdfs：

同樣的，如果已經在阿里雲上搭建了hadoop集群，可以方便的把資料從oss上遷移到新的hadoop集群

./hdfs2oss4emr.sh oss: /path/on/new-hdfs

除了線下的集群，阿里雲ecs上搭建的hadoop集群也可以用這個工具，借助它可以很方便的將自建集群遷移到阿里雲e-mapreduce服務上。e-mapreduce是由阿里雲專業的大資料團隊提供的hadoop/spark服務，提供了包括集群管理、作業管理、hive表管理、監控報警等豐富的功能，將客戶從繁瑣的hadoop集群運維工作中解放出來。當前阿里雲e-mapreduce服務在ecs機器費用之外並沒有額外收費，可以直接建立集群使用。

如果你現有集群已經在阿里雲上ecs上，但是在經典網路中，無法和vpc中的服務做很好的互操作，所以想把集群遷移到vpc中。此時，你可以先用本工具遷移資料到oss上，然後需在vpc環境中新建乙個集群（自建或使用e-mapreduce服務），再將資料從oss上遷移到新的hdfs集群中。

如果你使用e-mapreduce服務，還可以直接在hadoop集群中通過spark、mapreduce、hive等元件訪問oss，這樣不僅可以減少一次資料複製（從oss到hdfs），還可以極大的降低儲存成本（詳見雲棲社群部落格）

emr-tool...[hadoop].1493942285.bz2

乙個助Hadoop集群資料快速上雲工具

第乙個Hadoop程式

hadoop顯示只有乙個datanode啟動

如何安裝乙個hadoop系統

乙個助Hadoop集群資料快速上雲工具

第乙個Hadoop程式

hadoop顯示只有乙個datanode啟動

如何安裝乙個hadoop系統

相關推薦