利用資料質量規則庫推動資料質量管理

2021-09-29 05:18:04 字數 3085 閱讀 3468

不論是高校還是其他行業,管理資訊系統資料質量的重要性不言而喻。在業務層面,資料質量問題不僅會影響單點業務的正常開展,還會影響與該業務相關的其他業務順利開展;在決策層面,資料質量問題會直接影響到管理層的決策依據是否準確、客觀。

高校各類業務較多,應用系統繁雜,在系統建設過程中往往會忽視資料質量的重要性,沒有採取足夠的措施,導致隨著系統和資料的逐步深入應用,資料質量問題一點點暴露出來,比如資料的有效性、準確性、一致性等。最壞的結果就是使用者感覺系統和資料是不可信的,最終放棄了使用系統,這樣也就失去了建設系統的意義。

從高校資料質量管理工作進展情況來看,在思想上目前還沒有引起高校cio的足夠重視,在管理制度、技術措施等方面還沒有開展更多有效工作。資料質量是乙個非常複雜的系統性問題,解決資料質量問題應該從資料質量管理制度、應用系統建設、資料質量監控三個方面開展,並且三者要有機結合形成聯動,單靠某一方面的努力是不夠的。我們要清楚一點,再完美的系統都存在資料質量問題,資料質量監控只是一種必不可少的補充手段,已經到了解決問題的下游。本文主要介紹一種基於規則庫的資料質量自動監控平台實現方法及其在推動資料質量管理方面的重要作用。

監控平台架構

資料質量監控平台主要包括三個部分:資料層、功能層和應用層,平台架構如圖1所示。

1.資料層

資料層定義了資料質量監控的物件,主要是各核心業務系統的資料,如人事系統、教學系統、科研系統、學生系統等。

2.功能層

功能層是資料質量監控平台的核心部分,包括資料質量檢查規則的定義、資料質量檢查規則指令碼、檢查規則執行引擎、資料質量檢查規則執**況監控等。

3.應用層

資料質量監控規則庫是監控平台的核心,用來存放使用者根據資料質量標準定義的資料質量檢查規則指令碼,供監控引擎讀取並執行,同時將檢查產生的結果存放到監控結果表中,表1是監控規則表的資料結構,其中的核心字段解釋如下:

system_flag:系統標識,用來標記監控規則屬於哪個業務系統。

scan_rule:監控規則,是可執行的sql指令碼,監控規則主要分兩類,一類是單純的資料校驗規則,如檢查是否為null、是否與字典表一致等;另一類是業務校驗規則,有些資料從資料庫角度出發是沒有問題的,但是不一定符合業務邏輯,如專案的結項時間早於立項時間等。

scan_rule_desc:監控規則描述資訊,用來準確說明監控規則指令碼的檢查內容、檢查邏輯等資訊,供業務人員和技術人員詳細了解監控規則含義。

scan_object:監控物件,用來說明監控規則檢查的資料物件或業務實體。

check_type_name:檢查型別名稱,指監控規則檢查資料質量的哪一種問題,如完整性、有效性、準確性、唯一性、一致性、合理性。

scan_period:掃瞄週期,指該監控規則執行的頻率,如每天、每週、每月。

status:規則狀態,指該監控規則是否啟用,1表示啟用,0表示關閉,監控引擎不會執行已經關閉的規則。

output_result:輸出結果,指監控規則執行後輸出的內容,讓資料質量管理人員準確知道是什麼資料存在問題,方便在業務系統中查詢、修改。

scan_scope:掃瞄範圍,指監控規則掃瞄哪些業務資料,有並不是所有的業務資料都需要去檢查,掃瞄範圍在監控規則指令碼中也有相應的體現。

rule_level:規則級別,指該監控規則對應的資料質量問題對業務的影響程度,一般可分為高、中、低三個級別,高階別的資料質量問題必須在第一時間解決,否則會影響業務的正常開展。

module_name:系統模組名稱,指監控規則對應業務系統中哪個功能模組,主要用來將問題資料按系統功能模組來分類。

charger_email:資料質量負責人郵箱,可以將該規則檢查的結果發生到負責人郵箱中,方便檢視問題資料。

表2是監控結果表的資料結構,該錶用來存放某監控規則在相應的掃瞄時間點檢查出來的結果資料,通過scan_rule_id與監控規則表相關聯就能知道結果資料的詳細資訊。

表3是監控規則庫中教學系統相關的一些監控規則例項,由於排版問題只列出規則的核心字段。

監控引擎

監控引擎是資料質量監控平台的發動機,負責執行監控指令碼並產生監控結果,監控引擎是乙個可供排程程式定時執行的儲存過程,需要部署在乙個具有讀取其他業務庫的資料庫使用者下,監控引擎執行流程如圖2所示,具體執行過程說明如下:

1.通過排程程式定時觸發監控引擎執行,監控引擎可以根據實際情況靈活設定排程時間,一般設定在凌晨排程,減少對業務系統的影響。

2.監控引擎順序讀取規則庫中的資料質量檢查規則,判斷規則是否有效、判斷規則是否滿足掃瞄週期。滿足條件後執行檢查規則,並將檢查結果輸出到結果表中。

3.一條規則執行完成後,更新該規則的last_scan_date(最近掃瞄時間)字段。

4.將監控規則執行是否成功記錄到日誌表,尤其是執行失敗的規則,並將日誌傳送給系統管理員,以便及時修復問題。

5.執行完最後一條規則結束監控引擎的一次執行,同時將檢查結果以報告的形式傳送給相關業務人員。

監控結果展現

圖4是資料質量變化趨勢儀錶盤,該儀錶盤可以展示每個系統、每條規則近30天資料質量變化趨勢,有助於業務人員了解業務系統資料質量的變化情況,並採取相應的整改措施。

本文介紹的資料質量監控平台具有靈活部署、規則庫動態擴充套件、排程按需配置等特點,技術人員根據具體資料問題可以靈活地自定義監控規則,對系統執行中發現的資料質量問題進行統一監控和管理。資料質量監控平台是解決資料質量問題的有效手段之一,為技術人員和業務人員提供了乙個了解資料質量的便捷途徑,能夠有效地支援業務人員整改問題資料。高質量的資料不僅能夠支撐日常業務順利開展,還能夠為決策支援系統的建設打下良好基礎,該平台將成為打造綠色資料生態環境的有力支撐工具。

利用元資料管理資料質量

什麼是元資料 任何檔案系統中的資料分為資料和元資料。資料是指普通檔案中的實際資料,而元資料指用來描述乙個檔案的特徵的系統資料,諸如訪問許可權 檔案擁有者以及檔案資料塊的分布資訊 inode.等等。在集群檔案系統中,分布資訊包括檔案在磁碟上的位置以及磁碟在集群中的位置。使用者需要操作乙個檔案必須首先得...

利用元資料管理資料質量

什麼是元資料 任何檔案系統中的資料分為資料和元資料。資料是指普通檔案中的實際資料,而元資料指用來描述乙個檔案的特徵的系統資料,諸如訪問許可權 檔案擁有者以及檔案資料塊的分布資訊 inode.等等。在集群檔案系統中,分布資訊包括檔案在磁碟上的位置以及磁碟在集群中的位置。使用者需要操作乙個檔案必須首先得...

利用元資料管理資料質量

阿里雲大學課程 利用元資料管理資料質量 課程介紹 隨著企業資料不斷膨脹,資料間構成了一張極為複雜的加工關係網圖。如果資料出現了錯誤,如何快速的鎖定引發問題的原因,如何發現哪些實體會受到影響。通過本認證學習,學員可掌握資料倉儲元資料的應用及核查方法,通過記錄核查表,利用元資料,分析資料產生問題的原因,...