隨著業務系統每年收集和使用的資料飛速增長,資料體量日趨增長,資料形態多樣化且不統一,多種資料來源之間的採集、傳播和共享遇到困難。元資料管理作為大資料治理的核心,是有效管理這些資料的基礎和前提,在資訊化建設中發揮著重要的作用。如何理解、管理並發揮出元資料的價值,成為迫切的任務。
一、什麼是元資料
元資料(metadata)是關於資料的資料。元資料是描述資料倉儲內資料的結構和建立方法的資料。可將其按用途的不同分為兩類:技術元資料(technical metadata)和業務元資料(business metadata)。
1.技術元資料
技術元資料是儲存關於資料倉儲系統技術細節的資料,是用於開發和管理資料倉儲使用的資料,它主要包括以下資訊:
1) 資料倉儲結構的描述,包括倉庫模式、檢視、維、層次結構和匯出資料的定義,以及資料集市的位置和內容。
2) 業務系統、資料倉儲和資料集市的體系結構和模式。
3) 彙總用的演算法,包括度量和維定義演算法,資料粒度、主題領域、聚集、彙總、預定義的查詢與報告。
4) 由操作環境到資料倉儲環境的對映,包括源資料和它們的內容、資料分割、資料提取、清理、轉換規則和資料重新整理規則、安全(使用者授權和訪問控制)。
2.業務元資料
業務元資料從業務角度描述了資料倉儲中的資料,它提供了介於使用者和實際系統之間的語義層,使業務人員也能夠「讀懂」資料倉儲中的資料。業務元資料主要包括以下資訊:
1) 使用者的業務術語所表達的資料模型、物件名和屬性名。
2) 訪問資料的原則和資料的**。
3) 系統所提供的分析方法以及公式和報表的資訊。
4) 企業概念模型、多維資料模型,業務概念模型與物理資料的依賴,
二、元資料的作用
元資料可以實現業務模型與資料模型的對映,幫助使用者理解資料倉儲中的資料;元資料清晰的描述了資料的來龍去脈,描述了資料抽取轉換規則,是保證資料質量的關鍵;元資料管理系統可以把整個業務的工作流、資料流和資訊流有效的管理,可以支援需求變化,從而提高系統的可擴充套件性;打通資料孤島,統一資料定義,形成企業級知識傳承平台,元資料管理使得資料變的更有價值。
三、元資料管理
在大資料時代的背景下,資料即資產,元資料實現了資訊的描述和分類的格式化,從而為機器處理創造了可能,它能幫助企業更好地對資料資產進行管理,理清資料之間的關係。元資料管理是企業提公升資料質量的基礎,也是企業資料治理中的關鍵環節。元資料管理不當,資訊很容易被丟失,進而不能對業務進行有效支撐,企業內部業務人員要識別相關資訊就會變得十分困難,終端使用者也將失去對資料的信任。
元資料採集
技術元資料的採集,根據現有元資料設計出元模型,然後將資料倉儲系統之中的元資料按元模型集中彙總並關聯到一起,達到企業對資料統一管理與應用的目的,etl等產生的元資料,對於元資料管理工具支援的格式可直接進行匯入,對於一些自定義的規則,需要進行格式轉換並匯入。
業務元資料相對複雜,**較廣泛且不統一,需要對業務系統進行深入理解,按業務主題進行整理,梳理出業務範圍、業務名稱 、業務定義、業務描述、業務關係等,並新增到元資料管理系統中。主要從以下幾方面來進行梳理:
1) 業務平台中的各業務流程。
2) 交易、結算系統,提取出各種財務公式、過程邏輯、業務規則等。
3) 報表系統,比如表頭,包含合計、平均數等聚合函式的列,一些計算公式等。
4) **,在excel中進行業務計算的公式,列的描述、**描述等。
5) 檔案資料中的標題、作者、時間、內容主題等。
2、儲存管理
對元資料儲存需要使用專門的工具,擬定為(還需要做充分調研)pentaho metadata進行儲存管理。通過工具與資料庫系統的對接,將元資料導致進去,對於不支援系統對接的元資料,可手動進行新增。通過管理工具提供的輔助功能可對元資料進行標註、完善等。
四、元資料應用
通過元資料管理工具將元資料服務提供給所有業務人員,使業務人員也能夠快速的從業務角度理解資料,從而幫助業務人員更好的利用資料。以下用三個方面來闡述元資料的實際應用價值:
1、元資料對比分析
業務系統由開發環境到測試環境再到生產環境,在系統的設計、開發、測試、上線過程中,無論需求變更還是bug都會導致元資料的改動。大到庫表結構重新設計,小到字段型別的變更,都可能導致系統出現重大問題。為了避免這種問題的發生,我們可以使用元資料系統的對比分析功能,元資料系統可以自動採集三個環境的庫、表、字段、檢視、儲存過程等結構,自動化採集保證了各自環境中都是最新的、最準確的元資料結構,我們對上線的資料環境與測試庫進行對比,會輕鬆的發現問題所在,能大大降低這些問題發生的概率。
2、資料流向分析
資料平台系統中,業務資料由操作型資料幾分析型資料轉換,通過大量的資料抽取、轉換、清洗等過程形成了分析統計資料。資料由業務系統->資料倉儲->資料集市->分析報表,資料加工鏈路比較長,期間處理方式多元化,很容易會出現資料項不符合業務邏輯的情況,出現問題也很難迅速解決。
通過使用元資料系統的資料流向分析,即影響分析(上游->下游)與血緣分析(下游->上游),提供了字段級的資料解析,上下游之間的資料加工鏈路可以通過圖形的方式快速定位,可以快速定位特定的表和某些字段,然後做詳細的邏輯分析,大大簡化了分析環節,提公升了解決問題的效率。
3、交易鏈路分析
元資料可以輔助快速梳理系統服務之間的呼叫關係與服務間的介面。比如交易系統中入金、記賬、結算等業務,會經過一系統複雜的系統介面服務呼叫,為了更為清晰、準確的了解交易流程,需要對各個服務進行梳理、整合,由於涉及不同的部門、系統,工作量和工作難度將相當大。為了解決這個問題,元資料的鏈路分析能力可以自動化的完成梳理任務,元資料可以通過服務介面的採集,自動獲取服務的資訊,包括參與介面呼叫的輸入、輸出字段資訊,並通過系統自動採集相關的資料字典與關係對映,避免人工梳理造成漏誤,以元資料驅動,服服務的業務元資料規範新的服務,完成整個服務系統。
另外還可以進行實體關聯分析、實體差異分析、指標一致性分析、輔助應用優化、輔助案例管理。
海量資料解決方案
首先做使用者量估算需求,假如我們做的是學術社群,那麼這個使用者量不會很大,可能我們不需要考慮這個,對於使用者量的級別,我們暫時把使用者量級別定 為三種,百萬級別 m 和千萬界別 s 以及億萬級別 q 並考慮使用者登入驗證以及查詢常用的操作,對m和s進行擴充以及了解。眾所周知,在這個情況下,對於使用者...
大資料解決方案
原文 大資料解決方案 1 資料庫 垂直拆分 根據業務把錶放到不同的資料庫,解決表之間的io競爭 水平拆分 根據某種規則把單錶資料分成多張表儲存,解決單錶資料量大的問題 索引 根據業務場景建立合理的索引,如果資料量很小建議使用索引 300條以內 索引使用場景 動作描述 聚集索引 非聚集索引 主鍵列是 ...
資料傾斜解決方案
資料傾斜定義 簡單的講,資料傾斜就是我們在資料計算的時候,由於資料的分散度不夠,導致大量的資料集中到了一台或者幾台機器上計算,這些機器的計算速度遠遠低於整個集群的平均計算速度,導致整個計算過程十分緩慢。常見資料傾斜現象 資料傾斜往往會發生在資料開發的各個環節中,比如 用hive資料計算的時候redu...