datax介紹
datax 是阿里巴巴集團內被廣泛使用的離線資料同步工具/平台,實現包括 mysql、oracle、sqlserver、postgre、hdfs、hive、ads、hbase、tablestore(ots)、maxcompute(odps)、drds 等各種異構資料來源之間高效的資料同步功能。
使用背景:
阿里雲公有雲環境
drds遷移到drds
單錶資料量 2500萬行
使用介紹:
3.配置工具配置檔案:
建立乙個json格式的檔案,修改內容:
]}},
"writer": }}
],"setting": }}
}
4.啟動命令正式遷移python datax.py [你常見的配置檔案名稱]
5.遷移過程檢視日誌檔案
工具目錄下有log檔案,檢視效果如下:
資料遷移工具Sqoop和DataX功能比較
最近由於專案需要,對apache sqoop和taobao datax工具進行了調研,這裡是對二者功能的初步梳理,不會涉及技術細節和使用方法,留作日後選型參考。sqoop是apache下的頂級專案,用來將hadoop和關係型資料庫中的資料相互轉移,可以將乙個關係型資料庫 例如 mysql,oracl...
抽數工具datax使用
官網文件位址 password username splitpk contno writer presql drop table 語句 create table 語句 password username setting 這個例子是每次拉去全量資料從oracle表對表抽取到mysql,其實還可以實現增...
資料遷移最好用的框架dataX
在生產環境中,資料庫資料一般都是經常備份的,比如每天備份一次。主要用的是阿里雲的服務,包括伺服器 雲資料庫以及其他一些雲產品。備份的頻率是每天一次,就是說每天乙個pt,全量備份。資料清洗就是直接離線在備份的pt上進行sql操作,然後初始化到其他表中。1.操作離線資料庫,寫sql,資料清洗及初始化到臨...