批量生成資料遷移神器datax的json配置檔案

專案每天需要從oracle,gbase8a，mysql三種資料庫中抽取增量資料和全量資料到阿里的ads中，之前是基於kettle+crontab來實現資料的抽取與排程的。因kettle配置簡易，但抽取效率低，無法滿足業務的日常使用，目前開源軟體datax在測試期間效能與效果都能滿足業務需要，但也有乙個缺點，那就是datax的json配置檔案配置起來不太方面，於是就有了這篇文章。

1、將kettle同步的業務表修改為了datax同步

2、oracle資料庫中有70張業務，gbase8a中有60張，mysql中有85張

3、ads中的表結構與oracle,gbase8a中的業務表結構保持一致。

datax的主要工作是書寫json配置檔案，即源庫與目標庫中業務表字段的對應關係，而這一部分都是ctl +c、ctl+v 操作，所以通過相應的sql語句與shell相結合即可解決繁瑣的配置操作。

1、制定json同步模板及格式

2、通過sql語句獲取業務表的字段

3、通過shell批量生成同步表的json配置檔案

1、模板格式

gbase_template.txt


,"errorlimit":}
,"content":[
","password"
:"$"
,"connection":[
"]}]
,"fetchsize"
:1024}}
,"writer":"
,"password"
:"$"
,"presql":[
"truncate table table_name"],
"column":[
target_sql
],"connection":[
"}]}
}}]}
}

oracle_ template配置模板


,"errorlimit":}
,"content":[
","password"
:"$"
,"connection":[
"]}]
,"fetchsize"
:1024}}
,"writer":"
,"password"
:"$"
,"presql":[
"truncate table table_name"],
"column":[
target_sql
],"connection":[
"}]}
}}]}
}

2、獲取業務表字段的sql語句

sql語句生成的格式內容如下，後面發現"truncate table schema_name.table_name"可以不需要的

oracle_schema_name_table_name "truncate table schema_name.table_name" schema_name.table_name obj_id,obj_dispidx "obj_id"

,"obj_dispidx"

3、shell指令碼編寫

#! /bin/bash #function:generate configuration datax json file #author:by lineqi #crt_time:2020-10-13 v_dir= /data/datax_jobs cd $v_dir cat oracle_info.txt | while read line do v_datax_name=`echo $line|awk ''` v_table_name=`echo $line|awk ''` v_source_sql=`echo $line|awk ''` v_target_sql=`echo $line|awk ''` #echo $v_datax_name #echo $v_table_name #echo $v_source_sql #echo $v_target_sqlif[ -f "$v_datax_name.json" ]; then mv -f $v_datax_name.json $v_datax_name.json.bak fi cp oracle_template.txt $v_datax_name.json sed -i "s/table_name/$v_table_name/g" $v_datax_name.json sed -i "s/source_sql/$v_source_sql/g" $v_datax_name.json sed -i "s/target_sql/$v_target_sql/g" $v_datax_name.json

done

1、mysql5.6中group_concat函式預設長度為1024，如果將多個列轉成一行時，超過該長度會被擷取

解決方法：

set global group_concat_max_len = 4294967295;

set session group_concat_max_len = 4294967295

1、這裡只寫的datax配置檔案批量的生成方式，最終還是需要通過排程來實現資料同步操作，這裡採用的是dolphinscheduler1.3.2最新版來實現排程工作,dolphinscheduler的配置在後面的文章中給出.

2、模板裡的資料庫連線資訊是在dolphinscheduler裡配置好的

dolphinscheduler：

datax:

批量生成資料遷移神器datax的json配置檔案

models批量生成資料

同步資料庫神器DataX

Django 建立model並遷移生成資料庫表

批量生成資料遷移神器datax的json配置檔案

models批量生成資料

同步資料庫神器DataX

Django 建立model並遷移生成資料庫表

相關推薦