資料遷移之Kettle的使用小結

2021-09-01 06:06:40 字數 1768 閱讀 7730

場景

有五個資料庫,其中兩個

sql server

還有三個是

oracle10g。

目標 將兩個sql server

中的業務資料分別依照特定的邏輯遷移到三個

oracle

資料庫中。

kettle

的使用(基礎)

kettle

的安裝和配置 關於

kettle

對於kettle

的配置需要有乙個資料庫,

kettle

的資料庫負責儲存

kettle

自身需要的元資料描述、任務、轉換等,

kettle

預設的登陸資訊是

admin/admin。建立

oracle

資料庫連線直接依照提示輸入即可,下圖例出了

sql server

的連線。

sql server

的連線注意區分

database name

和instance name。

的基礎概念

作業,負責將[轉換

]組織在一起進而完成某一塊工作,通常我們需要把乙個大的任務分解成幾個邏輯上隔離的作業,當這幾個作業都完成了,也就說明這項任務完成了。

轉換,定義對資料操作的容器,資料操作就是資料從輸入到輸出的乙個過程,可以理解為比作業粒度更小一級的容器,我們將任務分解成作業,然後需要將作業分解成乙個或多個轉換,每個轉換只完成一部分工作。

kettle

使用基礎示例

kettle

的錯誤處理,有很多場景需要用到錯誤日誌記錄,如遷移過程中提示資料自身的問題、主

/外來鍵錯誤、違反約束等都要將當前場景記錄到乙個地方供後續特殊處理。示例

主要流程

錯誤資訊配置

資料量很大的情況可以加上過濾引數處理

值的對映

連線這塊要注意到連線所用到的原始資料一定是排過序的

參考資料

baidu文庫#

bi-pentaho

權威指南

開源ETL工具kettle 資料遷移

由於專案的需求,需要將資料從oracle遷移到mssql,不是簡單的資料複製,而是表結構和欄位名都不一樣,甚至需要處理編碼規範不一致的情況,如下圖所示 注意 oracle和mssql中的同名表的欄位名是不相同的 如果要是採用手工sql語句操作的話會很麻煩,需要考慮 oracle和mssql sql語...

kettle之gpload元件使用

greenplum已經很少人用了,最近新專案要用這個的時候發現網上資料不多,尤其是kettle gp的組合。所以最後經過幾天加班才研究出來,特地記錄一下。這裡用的kettle是最新的版本kettle9.0.0.0 423 greenplum是6.0.1的 gp安裝在linux上的虛擬機器上,這裡說寫...

八步學會資料遷移 ETL工具kettle使用方法

一 目的 將不同伺服器上的表合併到另外乙個伺服器上。例如 將伺服器1上的表a和伺服器2上的表b,合併到伺服器3上的表c 要求 表a需要被裁剪 去掉不必要的字段 表b需要增加一些字段 1 在伺服器3上的資料庫中新建一張表c 符合實際系統設計的字段 2 新建表輸入,連線伺服器1,通過獲取sql語句選擇需...