資料遷移最好用的框架dataX

2021-09-03 02:23:35 字數 899 閱讀 1418

在生產環境中,資料庫資料一般都是經常備份的,比如每天備份一次。主要用的是阿里雲的服務,包括伺服器、雲資料庫以及其他一些雲產品。備份的頻率是每天一次,就是說每天乙個pt,全量備份。資料清洗就是直接離線在備份的pt上進行sql操作,然後初始化到其他表中。

1.操作離線資料庫,寫sql,資料清洗及初始化到臨時表中。

2.寫同步指令碼,阿里雲的離線定時任務有很好的支援

3.阿里雲不支援較複雜的離線任務,比如說加了一些邏輯判斷,這時候就需要我們使用阿里雲的開源框架datax來操作,直接改原始碼,然後打包執行。

4.操作最好先在測試進行測試,檢驗資料是否正確。生產的操作最好在晚上進行,阿里雲支援設定匯入匯出的資料流速度,最好設定下速度不要太大,以免對線上資料庫造成太大壓力。

簡介datax的一些特性:

1.支援資料庫眾多。

截至目前已經支援rdbms 關係型資料庫,如mysql,oracle    ,sqlserver,postgresql等,阿里雲數倉資料儲存如odps,ads,oss,ocs等,nosql資料儲存如ots,hbase0.94,hbase1.1    ,mongodb等,無結構化儲存如txtfile,ftp,hdfs。

2.擴充套件性強。

datax framework提供了簡單的介面與外掛程式互動,提供簡單的外掛程式接入機制,只需要任意加上一種外掛程式,就能無縫對接其他資料來源。

3.上手簡單。

配置是json格式,符合主流習慣,只需幾分鐘就可以輕鬆上手。

4.開源。

開源的好處就是即使不是阿里雲伺服器,內網環境下也可以將原始碼download下來執行,同時可以研究下原理。當然,開源也可以做一些自己業務方面針對性的處理。

下面說乙個缺點吧,在2023年年初使用的時候,文件落後於功能迭代速度,導致想用一些特性卻不支援,最後翻了原始碼才發現可以支援。

datax原始碼:[

最好用的資料恢復軟體 EasyRecovery

21世紀的網際網路時代,資料資訊傳遞非常快,需要儲存的資料也是很多,所以需要用到很多的儲存裝置,比如硬碟 u盤 sd卡等,那麼這些裝置上的資訊就是絕對安全嗎?這個就讓人很懷疑了。圖1 表情圖那麼有人問,憑什麼說這款軟體是最好用的呢?有什麼理由呢?下面就一起來了解下這款軟體。ontrack easyr...

批量生成資料遷移神器datax的json配置檔案

專案每天需要從oracle,gbase8a,mysql三種資料庫中抽取增量資料和全量資料到阿里的ads中,之前是基於kettle crontab來實現資料的抽取與排程的。因kettle配置簡易,但抽取效率低,無法滿足業務的日常使用,目前開源軟體datax在測試期間效能與效果都能滿足業務需要,但也有乙...

資料遷移工具Sqoop和DataX功能比較

最近由於專案需要,對apache sqoop和taobao datax工具進行了調研,這裡是對二者功能的初步梳理,不會涉及技術細節和使用方法,留作日後選型參考。sqoop是apache下的頂級專案,用來將hadoop和關係型資料庫中的資料相互轉移,可以將乙個關係型資料庫 例如 mysql,oracl...