十步法原則解決資料質量問題

2021-09-27 05:20:36 字數 3642 閱讀 9898

資料的一組固有屬性滿足資料消費者要求的程度。

1)資料固有屬性

2)高質量資料滿足要求(消費者角度)

資料質量管理,是指對資料從計畫、獲取、儲存、共享、維護、應用、消亡生命週期的每個階段裡可能引發的各類資料質量問題,進行識別、度量、監控、預警等一系列管理活動,並通過改善和提高組織的管理水平使得資料質量獲得進一步提高。

任何改善都是建立在評估的基礎上,知道問題在哪才能實施改進。通常資料質量評估和管理評估需通過以下幾個維度衡量。常見的以下維度:

1)完整性

完整性,是指資料資訊是否完整,是否存在缺失情況。資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個字段資訊的記錄缺失。記錄的完整性,一般使用統計的記錄數和唯一值個數。完整性的另一方面,記錄中某個欄位的資料缺失,可使用統計資訊中的null的個數進行審核。一般空值的佔比基本恆定,同樣可以使用統計的空值個數來計算空值佔比,如果空值的佔比明顯增大,很可能這個欄位的記錄出現了問題,資訊出現缺失。總而言之,完整性可用記錄數、均值、唯一值、空值佔比等指標來衡量。

2)規範性

規範性,是指記錄是否符合規範,是否按照規定的格式儲存(例如標準編碼規則)。資料規範性審核是資料質量審核中比較重要也是比較複雜的一塊。規範性檢驗主要是檢驗資料和資料定義是否一致,因此可以通過合規記錄的比率來衡量。比如取值範圍是列舉集合的資料,其實際值超出範圍之外的資料佔比,比如存在特定編碼規則的屬性值不符合其編碼規則的記錄佔比。

3)一致性

一致性,是指資料是否符合邏輯,資料內單項或多項資料間存在邏輯關係。一致性檢驗,存在邏輯關係的屬性之間的校驗,比如屬性a取某定值時,屬性b的值應該在某個特定的資料範圍內,都可以通過合規率來衡量。

4)準確性

準確性,用於度量哪些資料和資訊是不正確的,或者資料是超期的。準確性可能存在於個別記錄,也可能存在於整個資料集上。準確性和規範性的差別在於規範性關注合規,表示統一,而準確性關注資料錯誤。因此,同樣的資料表現,比如資料實際值不在定義的範圍內,如果定義的範圍準確,值完全沒有意義,那麼這屬於資料錯誤。

資料的準確性可能存在於個別記錄,也可能存在於整個資料集。如果整個資料集的某個欄位的資料存在錯誤,這種錯誤很容易發現,利用平均數和中位數也可以發現這類問題。當資料集中存在個別的異常值時,可使用最大值和最小值的統計量去審核,或者使用箱線圖也可以讓異常一目了然。

還有幾個準確性的審核問題,字元亂碼的問題或者字元被截斷的問題,可以使用分布來發現這類問題,一般的資料記錄基本符合正態分佈或者類正態分佈,那麼那些佔比異常小的資料項很可能存在問題。如果資料並沒有顯著異常,但仍然可能記錄的值是錯誤的,只是這些值和正常值比較接近而已,這類準確性檢驗最困難,一般只能與其他**或者統計結果進行對比來發現問題。

5)時效性

資料從產生到可以檢視的時間間隔,也叫資料的延時時長。某些實時分析和決策需要用到小時或者分鐘級的資料,這些需求對資料的時效性要求極高,所以及時性也是資料質量的組成要素之一。例如定義某張表在每月最晚達到的日期是幾號。

6)唯一性

唯一性,用於度量哪些資料是重複資料或者資料的哪些屬性是重複的。即對存在於系統內或系統間的特定字段、記錄或資料集意外重複的測量標準。

7)合理性

合理性,是從業務邏輯角度判斷資料是否正確。評估方面可參照規範性、一致性做法。

8)冗餘性

冗餘性,是指多層次資料中是否存在不必要的資料冗餘。

9)獲取性

獲取性,是指資料是否易於獲取、易於理解和易於使用。

1)資訊因素

產生這部分資料質量問題的原因主要有:元資料描述及理解錯誤、資料度量的各種性質(如:資料來源規格不統一)得不到保證和變化頻度不恰當等。

2)技術因素

主要是指由於具體資料處理的各技術環節的異常造成的資料質量問題。資料質量問題的產生環節主要包括資料建立、資料獲取、資料傳輸、資料裝載、資料使用、資料維護等方面的內容。

3)流程因素

是指由於系統作業流程和人工操作流程設定不當造成的資料質量問題,主要**於系統資料的建立流程、傳遞流程、裝載流程、使用流程、維護流程和審核流程等各環節。

4)管理因素

是指由於人員素質及管理機制方面的原因造成的資料質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷。

可以遵從下面的十步法原則(此部分摘自御數坊公開材料)。

圖1找出有哪些業務受到資料質量問題的影響,或者由於資料質量的改進將會為企業帶來更好的業務效益的需求,評估這些業務需求並按照重要等級排序,作為本次資料質量提公升的目標與範圍。只有明確了業務需求與方法,才能確保要解決的資料質量問題是與業務需求相關的,從而真正的解決了業務問題。

從相關資料來源提取資料,圍繞已定義的業務需求,設計資料評估維度並利用相關工具完成評估,將資料質量評估結果以圖表或報告形式準確的表達出來,使相關領導或業務人員都能夠清晰的、直觀的了解實際的資料質量情況,確保資料問題是與業務需求相關的,並能夠得到相關領導或業務人員的重視與支援。

了解低質量資料是如何影響業務的,為什麼這些資料很重要,如果改善這些問題會帶來哪些業務價值。評估方式的複雜度越高所花費的時間越長,不過與評估效果卻並不一定成正比,所以在評估業務影響時也要注意方法的選擇。另外,要將業務影響評估結果及時歸檔,這樣,隨著時間的推移即便問題被淡化,也能夠有跡可查。

在糾正資料問題之前要先確定其根本原因,產生問題的根源有很多。不過,有些問題的發生僅是表象,並不一定是導致錯誤資料的根本原因,所以在分析的過程中,要不斷的去追蹤資料進行問題定位,確定問題最早出現的根本原因;或者多問自己幾遍「why」以弄清楚問題的根本原因,進而使問題得到有效的解決,達到治標又治本的效果。

通過前面幾步詳細的問題分析及原因確定,在這一步則可以有針對性的制定出合理的資料質量改進方案,包括對已知資料問題的改進建議及如何預防未來類似錯誤資料的發生。

根據解決方案的設計,預防未來錯誤資料的發生。

根據解決方案的設計,解決現有資料問題。這一步更多是」髒活累活」,但對於最終質量目標的達成至關重要。

實施持續的監測,確定是否已經達到預期效果。

對結果和專案進展情況溝通,保證整體專案的持續推進。

1)質量評估

提供全方位資料質量評估能力,如資料的重複性、關聯性、正確性、完全性、一致性、合規性等,對資料進行體檢進而識別和理解資料質量問題。有評價體系作為參照,需要進行資料的採集、分析和監控,為資料質量提供全面可靠的資訊。在資料流轉環節的關鍵點上設定採集點,根據系統對資料質量的要求,配置相應的採集規則,通過在採集點處進行質量資料採集並進行統計分析,就可以得到採集點處的資料分析報告。

2)檢核執行

提供配置化的度量規則和檢核方法生成能力,提供檢核指令碼的定時排程執行和第三方排程工具的排程執行功能。

3)質量監控

系統提供報警機制,對檢核規則或方法進行閥值設定,對超出閥值的規則進行不同級別的告警和通知。

4)問題管理

對資料問題進行流程處理支援,規範問題處理機制和步驟,強化問題認證,提公升資料質量。通過質量評價體系和質量資料採集系統,可以發現問題,之後還需要對發現的問題及時作出反應,追溯問題原因和形成機制,根據問題種類採取相應的改進措施,並持續跟蹤驗證改進之後的資料質量提公升效果,形成正反饋,達到資料質量持續改良的效果。

在源頭建立資料標準或接入標準,規範資料定義,在資料流轉過程中建立監控資料轉換質量的流程和體系,盡量做到在哪發現問題就在哪解決問題,不把問題資料帶到後端。

5)質量報告

系統提供了豐富的api可進行定製化資料質量包括開發,另外系統內建了常用質量報告。

6)質量分析

提供多種問題分析能力,包括血統分析,影響分析,全鏈分析,定位問題產生的根源。

首發於作者個人公號《韓鋒頻道》。

專案計畫十步法

專案延期 超費用和客戶不滿意的最普遍的原因之一是因為缺乏適當的專案計畫。專案計畫 階段是專案中最為核心的階段之一。在計畫階段,人力 資源 財力 商和各項任務都必須被正確地安排,只有這樣,專案經理才能夠有效地監控專案的中間產物和最終成果。下面的步驟能有助於快速有效地制定專案計畫 步驟1 制定專案計畫 ...

高效解決問題法 麥肯錫解決問題七步法詳解

善於解決問題的能力通常是縝密而系統化思維的產物,任何乙個有才之士都能獲得這種能力。有序的思維工作方式並不會扼殺靈感及創造力,反而會助長靈感及創造力的產生。下面為大家詳解麥肯錫的解決問題七步法 第一步,清晰地陳述要解決的問題。注意提出的問題要做到 乙個主導性的問題或堅定的假設 具體,不籠統 有內容的 ...

心得 麥肯錫7步法解決問題實際應用

先簡要給出步驟 1.明確清楚全面具體描述問題 2.分解問題 3.理清主要重點方面 4.做出解決計畫 5.進行關鍵因素反推 6.歸納建議 7.清楚表達 比如,我現在想做開發類工作,不是不同的開發,而是推薦演算法的開發。以這個來描述具體的問題 我想做推薦演算法的開發 我整理了有關推薦演算法開發所需的背景...