/dn=$/*"
//要讀取的hdfs上的資料庫的路徑
defaultfs:""/
/hdfs位址,ha是hdfs:
//mycluster
hadoopconfig:
,, type:string}]/
/每個列封裝成乙個json物件,讀列通過下標索引讀取資料塊中的列;type是資料庫中列對應的資料型別;外部傳入的引數使用固定值value接收。
filetype:
"text"
//資料塊檔案型別,行式儲存
encoding:
"utf-8"
//資料塊檔案編碼格式
fielddelimiter:
"\t"
//資料塊中字段的分隔符,和hive建表的時候的分隔符一致
writer:"]
//當寫入mysql50%失敗了,下一次重新匯入的時候,會執行這個sql,一般都是delete刪除。
connection:
}
真實例子:
},
"content":[
/dn=$/*"
,"defaultfs"
:"hdfs://mycluster"
,"hadoopconfig":,
"column":[
,,,,
","type"
:"string"},
","type"
:"string"}]
,"filetype"
:"text"
,"encoding"
:"utf-8"
,"fielddelimiter"
:"\t"}}
,"writer":"
],"connection":[
]}}}
]}}
批量生成資料遷移神器datax的json配置檔案
專案每天需要從oracle,gbase8a,mysql三種資料庫中抽取增量資料和全量資料到阿里的ads中,之前是基於kettle crontab來實現資料的抽取與排程的。因kettle配置簡易,但抽取效率低,無法滿足業務的日常使用,目前開源軟體datax在測試期間效能與效果都能滿足業務需要,但也有乙...
在Linux終端中執行Python檔案 詳細
為了確保系統中python環境的可維護性和避免安裝過多的模組汙染全域性環境以及占用儲存空間,因此在一般情況下,我建議在虛擬環境中執行python檔案。python的虛擬環境管理工具有很多,我使用的是virtualenv。如果安裝了anaconda 其也能方便的建立和管理虛擬環境,具體使用方法自行搜尋...
Shell指令碼給Datax的job檔案傳參
當前有乙個需求,讀取hdfs中的分割槽資料,然後將資料寫入到mongodb。由於要求每次匯入mongo的是增量的資料,但hdfs中沒有相應的字段對資料進行標識哪些是新增的。需要依據相應的策略去判斷相應的增量資料。通過hive的sql將每天的全量資料與歷史的增量資料進行關聯 left outer jo...