資料質量是保證資料應用的基礎,它的評估標準主要包括四個方面,完整性、一致性、準確性、及時性。評估資料是否達到預期設定的質量要求,就可以通過這四個方面來進行判斷。
完整性完整性指的是資料資訊是否存在缺失的狀況,資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個字段資訊的記錄缺失。不完整的資料所能借鑑的價值就會大大降低,也是資料質量更為基礎的一項評估標準。
資料質量的完整性比較容易去評估,一般我們可以通過資料統計中的記錄值和值進行評估。例如,**日誌日訪問量就是乙個記錄值,平時的日訪問量在 1000 左右,突然某一天降到100了,需要檢查一下資料是否存在缺失了。再例如,**統計地域分布情況的每乙個地區名就是乙個值,我國包括了32個省和直轄 市,如果統計得到的值小於32,則可以判斷資料有可能存在缺失。
一致性一致性是指資料是否遵循了統一的規範,資料集合是否保持了統一的格式。
資料質量的一致性主要體現在資料記錄的規範和資料是否符合邏輯。規範指的是,一項資料存在它特定的格式,例如手機號碼一定是13位的數字,ip位址一定 是由 4個0到255間的數字加上」.」組成的。邏輯指的是,多項資料間存在著固定的邏輯關係,例如pv一定是大於等於uv的,跳出率一定是在0到1之間的。
一般的資料都有著標準的編碼規則,對於資料記錄的一致性檢驗是較為簡單的,只要符合標準編碼規則即可,例如地區類的標準編碼格式為「北京」而不是「北京市」,我們只需將相應的值對映到標準的值上就可以了。
準確性準確性是指資料記錄的資訊是否存在異常或錯誤。和一致性不一樣,存在準確性問題的資料不僅僅只是規則上的不一致。更為常見的資料準確性錯誤就如亂碼。其次,異常的大或者小的資料也是不符合條件的資料。
資料質量的準確性可能存在於個別記錄,也可能存在於整個資料集,例如數量級記錄錯誤。這類錯誤則可以使用較大值和最小值的統計量去審核。
一般資料都符合正態分佈的規律,如果一些佔比少的資料存在問題,則可以通過比較其他數量少的資料比例,來做出判斷。
當然如果統計的資料異常並不顯著,但依然存在著錯誤,這類值的檢查是更為困難的,需要通過複雜的統計分析對比找到蛛絲馬跡,這裡可以借助一些資料分析工具,那麼具體的資料修正方法就不在這裡介紹了。
及時性及時性是指資料從產生到可以檢視的時間間隔,也叫資料的延時時長。及時性對於資料分析本身要求並不高,但如果資料分析週期加上資料建立的時間過長,就可能導致分析得出的結論失去了借鑑意義
資料質量的四種評估標準
資料質量是保證資料應用的基礎,它的評估標準主要包括四個方面,完整性 一致性 準確性 及時性。評估資料是否達到預期設定的質量要求,就可以通過這四個方面來進行判斷。資料質量的四種評估標準 資料質量是保證資料應用的基礎,它的評估標準主要包括四個方面,完整性 一致性 準確性 及時性。評估資料是否達到預期設定...
如何評估資料質量?
資料質量評估 在做了近乙個多月的資料質量評估方案工作,基本實現了從產出原始資料 資料清洗 入庫有效資料等階段,從對質量沒有任何概念到實現基本的指標展示,也算是從設計到 到展示的流程跑通,在一定程度已經能體現公司目前的資料質量 1.為什麼做資料質量?公司資料是從excel挖掘出來的,不確定性與未知性,...
翻譯質量評估的標準與方法
崔啟亮老師在2016年出版的 翻譯專案管理 一書中指出,專案的質量是專案本身最核心的部分。眾所周知,在進入新市場時,企業需要符合新目標市場受眾的質量期望,這就要求多語言翻譯專案流程需要有效的專案質量管理,進行翻譯質量控制,包括執行組織確定質量政策 目標與職責的各個過程和活動,使專案達到規定的交付質量...