如何評估資料質量?

2022-02-14 10:04:09 字數 1030 閱讀 8785

資料質量評估

在做了近乙個多月的資料質量評估方案工作,基本實現了從產出原始資料

、資料清洗、入庫有效資料等階段,從對質量沒有任何概念到實現基本的指標展示,也算是從設計到**到展示的流程跑通,在一定程度已經能體現公司目前的資料質量

1.為什麼做資料質量?

公司資料是從excel挖掘出來的,不確定性與未知性,準確性沒有評判的標準,提供給其他部門不能直接體現資料的好壞,做這件事是非常有必要2

2.從0開始思考怎麼做資料質量

對於大多數公司的資料來說,資料格式較為固定,埋點資料或者業務資料都是進行專門的定義,比如商品

id為數字,性別用

0,1表示,但對於挖掘或者提取到的資料來說,欄位的型別格式、長度及語義都可能存在差異,這就需要資料清洗重新規範格式。

3.資料質量計算及流程

離線流程:

實時:

5.思考指標與維度

6.實時的資料質量監控十分有必要,在清洗入倉時進行指標疊加統計監控,如果某些指標超出某些範圍,直接前台報警,業務人員進行資料來源排查、

實時方面在做全域性去重及一些複雜指標是乙個比較難處理的問題,因為全域性去重會去歷史資料進行碰撞與實時性衝突,目前想到的是晚上對前一天的入庫資料進行離線跑批計算,

再就是使用redis結合bitmap進行去重(還未實現,大資料量可能會影響結果丟失掉資料)

資料質量評估標準

資料質量是保證資料應用的基礎,它的評估標準主要包括四個方面,完整性 一致性 準確性 及時性。評估資料是否達到預期設定的質量要求,就可以通過這四個方面來進行判斷。完整性完整性指的是資料資訊是否存在缺失的狀況,資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個字段資訊的記錄缺失。不完整的資料所能借...

如何對軟體質量進行評估?

軟體質量是 軟體產品具有滿足規定的或隱含要求能力要求有關的特徵與特徵總和 根據軟體質量國家標準gb t8566 2001g,軟體質量評估通常從對軟體質量框架的分析開始。1.1 軟體質量框架模型 如圖1所示,軟體質量框架是乙個 質量特徵 質量子特徵 度量因子 的三層結構模型。在這個框架模型中,上層是面...

軟體質量評估模型

軟體質量評估模型大概分3個主要方向 1.需求的覆蓋度 需求的覆蓋度計算方法可以用測試用例覆蓋需求來計算,這裡的需求是從需求規格說明書裡提取的測試需求,每條測試需求要控制好一定的範圍,差不多2條用例覆蓋一條測試需求 1個正常用例,1個異常用例 一般要求需求覆蓋度要達到100 可以根據工具來計算這個需求...