場景
有五個資料庫,其中兩個
sql server
還有三個是
oracle10g。
目標 將兩個sql server
中的業務資料分別依照特定的邏輯遷移到三個
oracle
資料庫中。
kettle
的使用(基礎)
kettle
的安裝和配置 關於
kettle
對於kettle
的配置需要有乙個資料庫,
kettle
的資料庫負責儲存
kettle
自身需要的元資料描述、任務、轉換等,
kettle
預設的登陸資訊是
admin/admin。建立
oracle
資料庫連線直接依照提示輸入即可,下圖例出了
sql server
的連線。
sql server
的連線注意區分
database name
和instance name。
的基礎概念
作業,負責將[轉換
]組織在一起進而完成某一塊工作,通常我們需要把乙個大的任務分解成幾個邏輯上隔離的作業,當這幾個作業都完成了,也就說明這項任務完成了。
轉換,定義對資料操作的容器,資料操作就是資料從輸入到輸出的乙個過程,可以理解為比作業粒度更小一級的容器,我們將任務分解成作業,然後需要將作業分解成乙個或多個轉換,每個轉換只完成一部分工作。
kettle
使用基礎示例
kettle
的錯誤處理,有很多場景需要用到錯誤日誌記錄,如遷移過程中提示資料自身的問題、主
/外來鍵錯誤、違反約束等都要將當前場景記錄到乙個地方供後續特殊處理。示例
主要流程
錯誤資訊配置
資料量很大的情況可以加上過濾引數處理
值的對映
連線這塊要注意到連線所用到的原始資料一定是排過序的
參考資料
baidu文庫#
bi-pentaho
權威指南
開源ETL工具kettle 資料遷移
由於專案的需求,需要將資料從oracle遷移到mssql,不是簡單的資料複製,而是表結構和欄位名都不一樣,甚至需要處理編碼規範不一致的情況,如下圖所示 注意 oracle和mssql中的同名表的欄位名是不相同的 如果要是採用手工sql語句操作的話會很麻煩,需要考慮 oracle和mssql sql語...
kettle之gpload元件使用
greenplum已經很少人用了,最近新專案要用這個的時候發現網上資料不多,尤其是kettle gp的組合。所以最後經過幾天加班才研究出來,特地記錄一下。這裡用的kettle是最新的版本kettle9.0.0.0 423 greenplum是6.0.1的 gp安裝在linux上的虛擬機器上,這裡說寫...
八步學會資料遷移 ETL工具kettle使用方法
一 目的 將不同伺服器上的表合併到另外乙個伺服器上。例如 將伺服器1上的表a和伺服器2上的表b,合併到伺服器3上的表c 要求 表a需要被裁剪 去掉不必要的字段 表b需要增加一些字段 1 在伺服器3上的資料庫中新建一張表c 符合實際系統設計的字段 2 新建表輸入,連線伺服器1,通過獲取sql語句選擇需...