Kettle和ETL的基本構成

不多說，直接上乾貨！

這裡，我說的通俗易懂點，好方便大家的理解。

etl解決方案就像業務流程一樣，具有輸入、輸出，以及乙個或多個工作環節，處理步驟。同樣的，這些步驟也具有輸入和輸出，並可以執行將乙個輸人轉化為輸出的操作。

想一想，例如，在一家保險公司理賠部，門上有乙個大牌子，上面寫著理賠部，這就意味著它描述了部門的主要職責和業務：處理理賠。而在部門裡，你會發現每張辦公桌上或分部門可能有其自身的特點：健康保險理賠、汽車保險理賠、旅遊保險理賠，等等。當接納乙個理賠案件時，首先確定這個理賠將被哪個部門處理。然後部門辦公人員根據是杏有提供理賠必需的資訊來決定是否處理它，如果不符合的話，退回給提交者，並且給予說明。理賠處理的工作時間是每天早上9點到下午5點。

這個例子和etl處理過程非常相似：首先乙個驗證步驟去確定到達的或者被抽取的資料是哪種型別，然後資料被送到乙個特定轉換去處理。當轉換執行完後，資料將被傳遞到下乙個轉換或者乙個目標表，並在發生錯誤的情況下，被轉移到乙個錯誤處理流程進行處理。每個晚上凌晨3點，乙個排程程式開始此項任務並且直到所有資料被處理才結束。

你現在可能能對設計etl處理流程有乙個整體的認識了。從前面的例子可以推斷出，必須有某種機制來控制整個處理流程，以及實際轉換的細節工作。用kettle的術語闡述的話，前而部分稱為作業(job ),後面部分稱為轉換（transformation )。　　

作業是etl解決方案的**，而轉換是基礎的構建兩部分。

獨立的轉換能夠被鏈結在一起形成乙個具有邏輯順序的佇列，形成乙個能被排程和執行的作業，就像乙個業務流程。同樣的，轉換也是由幾個步驟組成的。步驟是kettle解決方案的第三種基本構成塊，而步驟之間的連線關係由跳（hop)來決定。

Kettle和ETL的基本構成

Kettle中ETL的效率優化

關於使用ETL工具Kettle的簡單介紹（二）

開源ETL工具 kettle的使用入門介紹

Kettle和ETL的基本構成

Kettle中ETL的效率優化

關於使用ETL工具Kettle的簡單介紹（二）

開源ETL工具 kettle的使用入門介紹

相關推薦