由於etl是資料倉儲得核心,時常承擔著管理和儲存資料倉儲大量元資料得職責。在資料倉儲中etl處理程式是元資料最重要得建立者——資料沿襲。資料沿襲追蹤資料從源系統和檔案中得請確位置直到最終被裝載之前。資料血統包括資料庫系統的資料定義和在資料參考古中最終靜止狀態。元資料分為後台元資料和前端元資料,後台元資料是與處理相關的,指導抽取清洗裝載工作;前端元資料更偏向描述性和使我們的查詢工具和報表工具更加穩定。後台將資料載入到資料倉儲,同時指明資料**,而前端元資料主要是為終端使用者服務的,可以作為描述所有資料的業務資料字典。對於元資料應該進行以下工作:
以上各項任務都需要完善的文件。資料來源規範:
1.各**的所有描述資訊
2.各**的業務描述
3.最初**的更新頻率
4.各**使用的司法侷限性
5.儲存方法,讀取許可權,和各**訪問口令
6.主機或源系統工作計畫
7.使用coblo/jcl或c或basic或其它語言來實現抽取
8.如果使用工具,則包含自動化抽取工具的設定
9.特殊抽取的結果,包括抽取時間和工作完成率
關於元資料的描述,資料需要的資訊:
維度表管理:
轉換和聚合:
審計,工作日誌和文件:
dbms元資料中作用在以下部分:
在前端擴充套件的元資料報括:
元資料報括了所有,從某種程度上來說,元資料是資料倉儲的dna,它定義了所有元素及元素之間協同工作的方式。元資料可以分為以下三類:
業務元資料,在業務層面描述資料的含義
技術元資料,描繪資料的技術方面包括資料的屬性,如資料型別、長度、沿襲及評估統計等
過程處理元資料,介紹執行etl處理的統計資訊,包括度量標準比如記錄匯入成功,記錄丟失,處理時間等等
除了這三種元資料之外,還應該考慮元資料的標準,資料倉儲後端的元資料流程如下圖:
上圖描述了使用和收集的元資料的所有地方,包括:
業務定義對於資料倉儲至關重要,不僅是終端使用者需要業務定義,etl也需要業務定義來給出正在運算元據的上下文關係。乙個典型的業務定義矩陣包括3個主要組成部分:
所有etl工具都支援捕獲和儲存元資料,etl工具應該和資料模型工具、資料庫一起獲得業務定義,並通過bi工具把業務名稱和業務定義展現給終端使用者。
資料在匯入資料倉儲前需要進行分析,指定資料改造計畫,使資料能夠較為理想的被匯入到資料倉儲中,在分析源系統時,需要以下元資料屬性:
資料庫或檔案系統,當涉及到源系統或檔案的時候經常用到這個屬性
表規範,包括表的用途,表的大小,主鍵和預備鍵以及所有列的清單
排異處理規則
業務定義
業務規則,針對於每張表都要有相應的業務規則
在資料倉儲專案中,資料分析階段需要大量時間研究源系統,缺少源系統元資料和導致資料倉儲更多的故障,所有源系統的元資料必須在etl開發之前提供給etl團隊。
資料倉儲的資料字典時關於所有資料元素和他們業務定義的清單,與源系統業務定義相似,資料倉儲資料字典包括物理表和列名稱,業務名稱和業務定義。
邏輯資料檢視時etl的生命線,從元資料的角度上看,邏輯資料檢視是由從源到目的的對映,從邏輯上解釋了資料從源系統中抽取出來到裝載到資料倉儲中的整個流程。邏輯資料對映是元資料的重要部分。
技術元資料服務於多種用途,它包括了到列名稱,資料型別,儲存和raid矩陣的配置,需要了解資料倉儲中資料元素的物理模型及屬性。資料的技術定義是資料的容器和框架結構,必須了解資料定義的三種環境:
每個環境都應該被提供乙個e-r圖,每個系統至少要包含以下元素:
每乙個潛在的資料儲存中的資料定義應該是一致的。資料每一次進入資料庫或者進入檔案後,資料質量很容易發生變化。如果在各個環境中的資料定義各不相同,則需要在etl系統中進行轉換來避免資料不一致,必須要有下列資料定義的元資料內容:
業務規則可以分為業務或技術源資料,多有的業務規則都要以彪馬的形式被包含在etl過程中,業務規則可以包括起始域中的任何允許值、預設值和計算。在源系統中,業務規則在儲存過程、強制約束或資料庫觸發中被執行,但是業務規則還是最常出現在應用程式中。業務規則的元資料會在功能性或者技術性文件和本地程式語言的源**或偽**之間進行改變。業務規則必須和邏輯資料檢視緊密結合在一起,有時業務規則會在邏輯資料檢視中被忽略,直到執行完第一次etl處理之後才被人注意,或被使用者在uat中發現。當有新的業務規則是,邏輯資料檢視的元資料必須更新來反映新的規則。
當etl物理程式被建立之後,一定要生成明確的元資料來捕獲每個處理的內部工作,etl元資料可以被分為四類:
下圖展現了etl任務元資料被建立,儲存和發布的元素:
任務是一系列轉換的集合,這些轉換執行物理上的抽取、轉換和裝載程式。乙個任務的元資料是物理的源到目的對映,任務應該根據裝載的目標表或檔案來命名,etl任務大致上可以分為三類:
轉換元資料是關於etl處理構造的資訊,轉換是由客戶化函式,儲存程式,常規程式組成的,這些程式包含了指標、迴圈、記憶體變數。在etl處理過程中的任何對資料的操作都被認為是轉換。專門的etl工具為資料倉儲環境預先定義了通用轉換,並把他們打包提供給使用者。預先建立的轉換加速了etl的開發,而且還可以在暗中捕獲轉換元資料。在大部分etl任務中的通用資料轉換包括:
轉換是etl任務的乙個構成部分,每種轉換在名命格式上都會稍有不同,由於可維護性的原因,在建立etl轉換時最好遵從以下名命規則:
裝載進度取決於以下因素:
資料倉儲中所有的處理元資料都是由etl過程生成的,每次乙個任務或批處理執行,統計或成功指示器都需要**獲。匯入統計是元資料的乙個重要部分。元資料元素可以幫助理解etl任務中的活動和批處理或評估成功的處理:
處理執行元資料在資料儲存中保留,以便進行趨勢分析,分析元資料可以發現etl處理的瓶頸,可以保證資料倉儲效能的可控性,同時也可以衡量資料質量。
批處理是一系列要執行的etl任務排程的集合,批處理的名稱應該可以反應出其所屬主題,任務執行的頻率和任務中批處理執行方式是並行還是序列。
為了維護企業級資料倉儲所有etl過程中可管理的任務,資料倉儲必須要建立標準,制定時考慮下列標準:
維護etl元資料的乙個有利條件是元資料可以進行效果分析,通過效果分析,可以列出資料倉儲環境中的所有可以改變的特徵,還可以分析這些變化所帶來的影響。etl工具要記錄源系統所有表,列到他們裝載到資料倉儲中的所有資訊。
資料倉儲ETL工具箱 清洗和規範化(一)
在etl系統中,資料的抽取和載入只是改變了資料的格式和資料的位置,而真正改變資料價值的恰恰是清洗和規範化的步驟,這對於資料能否用於預期目標起了決定性的作用。清洗和規範化包含三個重要的可提交內容 關於資料評估報告主要針對的是資料質量,資料質量應該保證資料的精確性,精確的資料意味著 資料質量子系統為了完...
資料倉儲 ETL
etl這個過程可以說下整套資料流程下來最枯燥也是最耗時間的流程,但是也是最重要的。很多時候我們不缺資料,缺的是好資料,而etl的結果則導致下游成員的資料質量。etl是貫穿數倉的整個環節,不是說只是在某乙個地方才使用的。etl工作的實質就是從各個資料來源提取資料,對資料進行轉換,並最終載入填充資料到資...
資料倉儲工具箱讀書筆記01 基礎
1.4 kimball的dw bi架構 1.5 其他dw bi架構 資訊 或者說是資料 一般有兩個目的 記錄操作 操作型系統 指定決策 dw bi系統 操作性系統一般一次只處理乙個事務 獲取訂單 記錄問題等 如果要優化方向在於讓其更快的處理事務,因此不必維護歷史資料,只需要修改資料來反映最新的狀態即...