在大資料處理的過程當中,etl是非常重要的乙個環節,資料引入到系統,進行初步的處理,以備後續的資料處理環節的需求。從事etl工作的崗位從業者,就被稱作大資料etl工程師。今天我們就來聊聊etl工作流程分解。
簡而言之,etl的工作,就是輸入各種資料來源,輸出是各種用於分析的表和資料檔案。這個過程當中,就涉及到用來分析的資料是否易用、資料質量的好壞、資料是否完整、資料是否可信等關鍵性問題。
etl的一般過程
etl主要包含三大階段,分別是資料抽取、資料轉換、資料載入。
1、資料抽取
這個階段的主要目標是彙總多種資料來源,為下一步的轉換做準備。在動手做抽取之前,你需要充分了解你的各種資料來源,理解並利用他們的特性,結合實際分析業務需求,選擇合適的抽取方式。
2、資料轉換
這個階段是etl的核心環節,也是最複雜的環節。它的主要目標是將抽取到的各種資料,進行資料的清洗、格式的轉換、缺失值填補、剔除重複等操作,最終得到乙份格式統
一、高度結構化、資料質量高、相容性好的資料,為後續的分析決策提供可靠的資料支援。
3、資料載入
這部分的主要目標是把資料載入至目的地,比如資料倉儲中。通常的做法是,將處理好的資料寫成特定格式(如parquet、csv等)的檔案,然後再把檔案掛載到指定的表分割槽上。也有些表的資料量很小,不會採用分割槽表,而是直接生成最終的資料表。
etl的實際執行過程,不是乙個一勞永逸的過程,因為資料會源源不斷地來,因此etl需要定時或實時地對新來的資料進行資料。所以,這其中也涉及到集群服務、資源排程等方面的需求。
關於etl工作流程分解,以上就為大家做了乙個簡單的介紹了。大資料在快速發展當中,對專業技能的要求也不斷提高,etl也是如此。
Struts工作流程
文章分類 招聘求職 乙個使用者的請求是通actionservlet來處理和 的。那麼,actionservlet如何決定把使用者請求 給哪個action物件呢?這就需要一些描述使用者請求路徑和action衍射關係的配置資訊了。在struts中,這些配置對映資訊都儲存在特定的xml檔案struts c...
zf工作流程
zend controller是使用mvc模式來構建乙個站點的基礎。zend controller體系是乙個輕量的,模組化和可擴充套件的體系。它只提供最核心的必要的部分,允許開發者有很大的自由來靈活地構建自己的站點。使用zend controller的站點,其檔案組織和 結構會比較相似。zend c...
spring MVC 工作流程
1 首先來配置一下dispatcherservlet spring mvc和大部分mvc框架一樣,底層也是依賴servlet api的,所以spring mvc的請求處理也是從乙個servlet開始,這個servlet就是dispatcherservlet.以下是在web.xml中dispatche...