資料遷移工具Sqoop和DataX功能比較

2021-09-06 09:24:01 字數 690 閱讀 9393

**:

最近由於專案需要,對apache sqoop和taobao datax工具進行了調研,這裡是對二者功能的初步梳理,不會涉及技術細節和使用方法,留作日後選型參考。

sqoop是apache下的頂級專案,用來將hadoop和關係型資料庫中的資料相互轉移,可以將乙個關係型資料庫(例如:mysql,oracle,postgresql等)中的資料匯入到hadoop的hdfs中,也可以將hdfs的資料匯入到關係型資料庫中。目前在各個公司應用廣泛,且發展前景比較樂觀。其特點在於:

1)專門為hadoop而生,隨hadoop版本更新支援程度好,且原本即是從cdh版本孵化出來的開源專案,支援cdh4應該沒問題。

2)支援並行匯入,宣稱速度很快(由於時間緊,未來得及進行真實環境的測試),可以指定按某個字段進行拆分並行化匯入過程。

3)支援按欄位進行匯入與匯出。

4)自帶的輔助工具比較豐富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。

datax是**開源的資料匯入匯出的工具,支援hdfs集群與各種關係型資料庫之間的資料交換。其特點在於:

1)官方版本支援的hadoop版本較低(0.19),暫不支援高版本(如cdh4)。

2)支援從乙個hdfs集群到另乙個hdfs集群之間的資料匯入匯出。

3)支援資料不落地的並行匯入匯出。

sqoop資料遷移工具

注 為了表達清晰做了換行,執行時請放在一行中,使用空格隔開,或者加 進行行連線 在profiles中新增sqoop到環境變數 將資料庫連線驅動拷貝到 sqoop home lib裡 sqoop import connect jdbc mysql username root password 123 ...

sqoop工具資料遷移

sqoop 發音 skup 是一款開源的工具,主要用於在hadoop hive 與傳統的資料庫 mysql postgresql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql oracle postgres等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資...

字段型別 sqoop 資料遷移工具Sqoop

熬過去,出眾。熬不過,出局。這是最真實的人生,人都是熬過來的。sqoop 是乙個用來將hadoop和關係型資料庫中的資料相互轉移的工具,它是hadoop環境下連線關聯式資料庫與hadoop儲存系統的橋梁,支援多種關係型資料來源和hive hdfs hbase的相互匯入。支援全表匯入,也支援增量資料匯...