在這部分將按照設計和實現etl系統的流程展開,將上乙個部分的那些子系統按照提取資料、清洗和一致化、向呈現伺服器提交以及管理etl環境等四個方面進行了分類。(是不是說對etl主要就是掌握這四個方面的內容)
etl處理步驟
提取資料
清洗和一致化
向呈現層提交
管理etl環境
計畫
建立乙個高層的、單頁的源到目標示意流程
*測試、選擇和實現一種etl工具
為維度管理、錯誤處理和其他有關過程設計預設的策略**
*通過目標表向下鑽取,給出任何複雜資料重組或轉換的圖形示意,並且設計初步的作業序列**
*設計一次性歷史裝載過程
建立和測試歷史事實表的裝載,包括**鍵的查詢和替換**
*設計增量裝載過程
建立和測試維度表增量裝載過程**
*建立和測試事實表增量裝載過程**
*建立和測試聚集表裝載和olap處理
*設計、建立和測試etl系統的自動化**
*
ETL 設計開發過程的總述
etl的主要作用 資料的獲取 清洗的一致性 用於展現的發布 etl環境的管理,在所有的設計etl模型的時候,所有模型的邏輯設計應該已經初步完成,並了解了自己所使用的用於建立資料倉儲的資料來源有哪些,以及需要建設的模型etl和源之間的對映關係的80 是可以確認的,那麼在上面的基本條件準備充分的情況下,...
設計一條完整離線etl線路
etl 抽取 extract 轉換 transform 載入 load 下面是etl 資料流 藍色的框框代表的是資料 紅色的框框主要是資料計算平台,綠色的 hdfs 是我們一種主要的資料儲存,hive hbase es這些就不再列出來了。我們常說的資料流主要分兩種 1離線資料 2.實時資料 其中離線...
系統開發 資料倉儲ETL流程規範
專案組希望我出乙個etl的規範,憑著自己的感覺和經驗總結了一些步驟,我還會不斷改進。本etl流程規範試圖建立乙個通用的etl流程開發規範,針對不同專案組的實際情況,可自行進行逐步的完善和修改。本流程應該是在需求分析階段結束後實施。etl 流程 可以把etl分為五個階段,按照開發的順序分 1 準備階段...