資料倉儲的靈魂 元資料

2021-09-30 10:22:29 字數 2581 閱讀 6773

企業資料量的日益膨脹以及資料的多樣性和複雜性,使人們不禁感嘆二十年前查詢不到資料是因為資料太少,而現如今查詢不到資料則是因為資料太多了。如何及時地從海量的原始資料中提取更多、更好地資訊,為企業的決策分析服務,成為人們一直關心的問題。在這種情況下,資料倉儲技術應運而生。資料倉儲能把企業決策所需的資訊從企業原始資料中分離出來,把分散的、難以訪問的原始運算元據轉化為集中統

一、隨時可用的資訊,實現了對資訊合理、全面而高效的管理,因此很快在金融、**、保險等聯機事務處理密集型行業得到廣泛的應用,取得了較好的效益。隨著資料倉儲技術應用的不斷擴充套件,元資料開始成為企業資訊綜合管理的關鍵,元資料管理越來越引起人們的重視。元資料是資料倉儲的靈魂。那麼什麼是元資料呢?元資料和資料倉儲的關係又是什麼呢?

1.元資料

metadata(元資料)是「關於資料的資料」;

主要目標是提供資料資源的全面指南。

元資料不僅定義了資料倉儲中資料的模式、**以及抽取和轉換規則等,而且整個資料倉儲系統的執行都是基於元資料的,是元資料把資料倉儲系統中的各個鬆散的元件聯絡起來,組成了乙個有機的整體。

2.元資料和資料倉儲的關係

元資料是資料倉儲實現和管理的靈魂,是聯絡資料倉儲中各部分的紐帶。

資料倉儲是一種面向決策主題、由多資料來源整合、擁有當前及歷史總結資料、以讀為主的資料庫系統,其目的是支援決策。資料倉儲要根據決策的需要收集來自企業內外的有關資料,並加以適當的組織處理,使其能有效地為決策過程提供資訊。資料倉儲中的資料是從許多業務處理系統中抽取、轉換而來,對於這樣乙個複雜的企業資料環境,如何以安全、高效的方式來對它們進行管理和訪問就變得尤為重要。解決這一問題的關鍵是對元資料進行科學有效的管理。

元資料是關於資料、操縱資料的程序和應用程式的結構和意義的描述資訊,其主要目標是提供資料資源的全面指南。元資料不僅定義了資料倉儲中資料的模式、**以及抽取和轉換規則等,而且整個資料倉儲系統的執行都是基於元資料的,是元資料把資料倉儲系統中的各個鬆散的元件聯絡起來,組成了乙個有機的整體。

3.元資料的分類

從使用者的角度可以把元資料的內容分為技術元資料和業務元資料。

技術元資料,由資料庫管理員、資料庫設計者和程式設計師使用,是關於資料倉儲系統技術細節的元資料。主要包括以下方面:

(1)可操作的資料庫、資料倉儲和資料集市的模式。可操作的資料庫系統模式是異構的,有面向記錄的、面向檔案的、關係的、物件導向的、多層次的和網狀的等模式。而相反的,在資料倉儲和資料集市中,模式是一致的、協調的,或是關係型的或是多維的模式。

(2)不同的運算元據派、資料倉儲和資料集市之間在物理和實現級上的對映和依賴關係的描述,包括從不同的資料來源到資料倉儲的抽取、清洗、轉換過程的資訊。

(3)管理目的的元資料,包含了為了協調效能的系統統計(cpu和i/o的需求,……),資料重新整理,資料清除和存檔的相關資訊等。

業務元資料,由業務經理和業務分析員等使用,幫助業務使用者理解資料含義和支援面向業務的資料分析。主要包括以下方面:

(1)企業概念模型,定義了主要的業務資訊物件、物件間的關係、整體約束(業務規則)等。

(2)業務術語,描述了終端使用者熟悉的、定義一致的企業模型。

(3)業務術語與資料倉儲或資料集市之間的對映資訊,便於面向業務的資料訪問,如用業務資料來代替專業的查詢語言sql。

(4)對預定義查詢、報表和資料立方體的理解,與此相關的元資料還有資料負貴人、資料所有者、建立時間、更新頻率、相應的主題和業務領域等。

(5)資料探勘,由於業務元資料通常明確地描述了語義關聯和專有的業務概念層次關係,因此,基於元資料的假設、生成和結果過濾可以支援資料探勘。

4.元資料的生命週期:

在資料倉儲系統中,元資料的生命週期可分為三個基本階段:收集、維護和配備。這三個階段相互促進,使元資料在資料倉儲環境中發揮重要作用。

元資料收集階段的任務是識別元資料並將其收入元資料庫中。在適當時間收集適當的元資料是成功實施元資料驅動的資料倉儲的基礎。要達到較高的準確性,元資料的收集必須盡可能自動化。但由於對資料倉儲游泳的元資料報含各種不同型別的內容,從物理結構資料到邏輯結構資料,再到企業的使用情況和業務規則。這些型別中的每一類都有自己的元資料手機策略,有的可以在某種程度上自動化,有的則要人工來完成。

在維護階段,元資料必須緊跟實際情況的變化。

在配備階段,是向使用者提供形式適當的元資料和適用的工具,這是在收集和維護元資料中所付出的的代價就要形成成果的階段。在資料倉儲環境中,不同的使用者在使用內容和方法上存在較大差異,因此應為不同使用者配備不同形式的元資料。成功配備元資料的關鍵之一在於正確地使元資料與每一類使用者的特定需求相匹配。

5.元資料列舉

基於應用,可以將元資料分成以下的若干種。

資料結構:資料集的名稱、關係、字段、約束等;

資料部署:資料集的物理位置;

資料流:資料集之間的流程依賴關係(非參照依賴),包括資料集到另乙個資料集的規則;

質量度量:資料集上可以計算的度量;

度量邏輯關係:資料集度量之間的邏輯運算關係;

etl過程:過程執行的順序,並行、序列;

資料集快照:乙個時間點上,資料在所有資料集上的分布情況;

星型模式元資料:事實表、維度、屬性、層次等;

報表語義層:報表指標的規則、過濾條件物理名稱和業務名稱的對應;

資料訪問日誌:哪些資料何時被何人訪問;

質量審核日誌:何時、何度量被審核,其結果;

資料裝載日誌:哪些資料何時被何人裝載;

資料倉儲 資料倉儲元資料管理

元資料 meta data 主要記錄資料倉儲中模型的定義 各層級間的對映關係 監控資料倉儲的資料狀態及etl的任務執行狀態。一般會通過元資料資料庫 metadata repository 來統一地儲存和管理元資料,其主要目的是使資料倉儲的設計 部署 操作和管理能達成協同和一致。元資料是資料倉儲管理系...

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲 五 元資料管理

元資料通常定義為 關於資料的資料 在資料倉儲中是定義和描述dw bi系統的結構,操作和內容的所有資訊。元資料貫穿了資料倉儲的整個生命週期,使用元資料驅動資料倉儲的開發,使資料倉儲自動化,視覺化。1.業務元資料 業務元資料指從業務角度描述業務領域相關的概念 關係和規則的資料,包括業務術語和業務規則等資...