etl 是將資料從**端經過抽取(extract)、互動轉換(transform)、載入(load)至目的端的過程。
etl 過程是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中去。etl 規則的設計和實施約佔整個資料倉儲搭建工作量的 60%~80%。
對不同資料來源的抽取
抽取的資料,根據型別的不同,可以分為結構化資料、非結構化資料、半結構化資料。
結構化資料的抽取可以採用 jdbc 連線到資料庫直接進行抽取,這也是最常用的一種方法,但這種方式因為是對資料庫進行直連,所以會消耗資料庫的 io,影響正常的業務進行,所以抽取時間會選擇在凌晨業務量較少的時間;而且有一些企業不允許對資料庫進行直接抽取,首先是出於安全的考慮,防止資料庫異常、影響業務執行;其次對資料庫進行直抽會因為 io 的問題,導致抽取速度非常慢,無法在規定時間內完成資料匯出。
除了使用 jdbc 進行資料抽取外,還可以抽取資料庫日誌的方式進行抽取,這種方式不會直連資料庫,而是直接採集資料庫的 wal(預寫日誌檔案)。資料庫為了保證資料的安全性,所有對資料庫的操作,都會順序追加到 wal 日誌檔案中,然後再對資料庫執行操作。所以對 wal 日誌的採集對資料庫的影響是極小的,
ETL概念,ETL流程
etl是將業務系統的資料經過抽取 清洗轉換之後載入到資料倉儲的過程,目的是將企業中的分散 零亂 標準不統一的資料整合到一起,為企業的決策提供分析依據。etl是bi專案重要的乙個環節。通常情況下,在bi專案中etl會花掉整個專案至少1 3的時間,etl設計的好壞直接關接到bi專案的成敗。etl的設計分...
ETL的兩種架構(ETL架構和ELT架構)
etl etl,是英文 extract transform load 的縮寫,用來描述將資料從 端經過抽取 extract 轉換 transform 載入 load 至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。etl是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料...
ETL工作流程分解
在大資料處理的過程當中,etl是非常重要的乙個環節,資料引入到系統,進行初步的處理,以備後續的資料處理環節的需求。從事etl工作的崗位從業者,就被稱作大資料etl工程師。今天我們就來聊聊etl工作流程分解。簡而言之,etl的工作,就是輸入各種資料來源,輸出是各種用於分析的表和資料檔案。這個過程當中,...