評估資料質量的好壞,業界標準並不統一。阿里巴巴對資料倉儲主要從四個方面進行評估,即完整性、準確性、一致性和及時性。
完整性
完整性是指資料的記錄和資訊是否完整,是否存在缺失的情況。資料的缺失主要包括記錄的缺失和記錄中某個字段資訊的缺失,兩者都會造成資料不準確,所以說完整性是資料質量最基礎的保障。
比如交易中每天支付訂單數都在100萬筆左右,如果某一天支付訂單數突然下降到1萬筆,那麼很可能是記錄缺失了。對於記錄中某個字段資訊的缺失,比如訂單的商品id、賣家id是必須存在的,這些欄位的空值個數肯定是0,一旦大於0就必然違背了完整性約束。
準確性
準確性是指資料中記錄的資訊和資料是否準確,是否存在異常或者錯誤的資訊。比如一筆訂單如果出現確認收貨金額是負值,或者下單時間是在公司成立之前,或者訂單沒有買家資訊,這些必然都是有問題的。
一致性及時性
在確保資料的完整性、準確性和一致性後,接下來就要保障資料能夠及時產出,這樣才能體現資料的價值。一般決策支援分析師都希望當天就能看到前一天的資料,而不是等幾天才能看到某乙個資料分析結果;否則就失去了資料及時性的價值,分析工作毫無價值。現在對時間要求越來越高,越來越多的應用都希望資料是小時級別或者實時級別的。比如阿里巴巴雙11的交易大屏資料,就做到了秒級。
針對阿里巴巴龐大的資料倉儲,資料的規模已經達到eb級別,對於這麼多大的資料量,如果一概而論勢必會造成精力無法集中、保障無法精確,因此給資料劃分等級勢在必得。
如何給每乙份資料打上乙個等級標籤?
首先,介紹資料的簡單流轉過程,資料從業務系統中產生,經過同步工具進入資料倉儲系統中,在資料倉儲中進行一般意義上的清洗、加工、整合、演算法、模型等一系列運算後,再輸出到資料產品中進行消費。
有了資料產品或者資料應用的概念,同時知道了哪些表為哪個資料產品或者應用服務的,就可以借助元資料知道整個資料倉儲中的哪些表服務於這個資料產品,因此通過給不同的資料產品或者應用劃分資料資產等級,再依託元資料的上下游血緣
,就可以將整個消費鏈路打上某一類資料資產的標籤,這樣就可以將數以億計的資料進行分類。
軟體質量保障初探
q 對教材與參考資料閱讀後關於軟體質量保障你的體會是什麼?a 乙個軟體質量的如何,可以通過套用下面這個公式來 軟體質量 程式質量 軟體工程質量 在衡量乙個軟體的質量如何的同時,就需要進行兩項工作 軟體的質量保障 qa 和軟體測試 test 那麼qa和test是啥呢?test 運用一定的流程和工具,驗...
軟體質量保障初探 Chris
關於軟體質量保障的體會 首先,軟體質量保障的重要性不言而喻,書中說軟體質量體現在以下方面 有一套較為成熟的理論來衡量各個軟體工程的質量 cmmi capacity maturity model integrateg 即能力成熟度模型集合。同時要達到一定的軟體質量是需要付出一定的成本的,新功能的開發固...
測試 發布 質量保障 使用者體驗
自學閱讀完構建之法後,我提出了五個現在還無法解決的問題如下 1 現實的開發過程中往往會比理論中多出很多問題,比如需要如何能夠將需求細化到任務,然後在細化到設計,最終使得能夠在規定的時間內有條不紊的完成目標?2 如果最後做效能分析的時候發現效能問題造成的原因是前期乙個隱藏在很深地方的不妥當架構造成的,...