資料質量保證和資料質量檢測:
資料質量保證:無論是檢測原始庫或者是資料倉儲,都是要有乙個有質量保證的資料庫。
以檢測資料倉儲的質量為例:
原始資料在抽取進入資料倉儲後,通過檢測資料倉儲質量問題來修正原始庫,從新抽取進入資料倉儲。
檢測資料倉儲的資料質量:
第一層:保證資料的正確性,全面性,唯一性;
第二層:進行資料的轉換,得到符合要求的資料值
第三層:對轉換的資料進行分析+結果展示
第四層:對結果進行人工的交流,查詢,得出結論。
保證資料的正確性的方法:格式驗證,最大,。最值限制等
保證全面性:可以通過記錄總數來確保。
保證唯一性:通過賬期唯一值來確保。
乙個資料可能的問題:沒插入,多插入,插入錯誤,插入正確,
123可能的質量問題:12,1233,12w
通過正確性驗證(格式等)的為1234,12,123,124,
通過全面性(個數):不會個數不夠122,142
通過唯一性驗證(拒絕重複,如果是冗餘的話,重複的算作乙個):不會是存在的錯誤為124,123
對剩餘的情況:124,123
124無法驗證,123為正確的。124可通過分析比較歷史得出為預警的,123通過分析比較歷史得出為正常值。
要進行最值分析:可以得到在限定的最值之內和之外的值
第三層:分析:獲取環比值,
將環比值通過圖表的方式展示,超過預警值的124被自動記錄下來
,提供人工分析的可能。
只有對比歷史記錄才能分析,
舉例:8月環比,可以通過檢視7月,6月的環比來進行比較
也可以通過限制值的範圍來提醒超值列。
在通過第二層第三層的分析錯誤資料的過程最好可以儲存下來。
再次分析不用建立
開源工具的功能:
過濾,轉換 分析 分析結果展示 原因跟蹤
當前工具:datacleaner
功能:可以分析多種源.
可以過濾,轉換 分析 分析結果展示
分析形式固定:只有空,最大,最小,波動等,無法定製分析形式
優點:提供分析過程儲存,分析結果展示,分析結果儲存。
感覺分析和質量檢測混合在一起了,以分析結果得出資料的質量問題情況,不提供錯誤的原因。
對資料質量的檢測提供了總記錄數,資料分布波形,重覆記錄數的檢測,和格式過濾 ,基本可以完成第一層的功能。
無法分析展示環比在某個區間的行和某個區間之外的行.
資料分析:保證了資料偏差得質量問題的同時也進行了資料質量分析.
資料質量保證若干步驟
1 管理層面 資料質量標準 完整性 唯一性 有效性 一致性 正確性 資料質量針對具體的資料內容,進行資料內容進行系統檢查 2 業務層面 資料質量關鍵物件 ctq 業務上最重要的部分對應的資料 對已發現的問題進行訪談調查,資料剖析 資料概要分析,對資料來源表中值進行系統化的預先分析,可以幫助發現業務的...
軟體質量保證 軟體質量
這篇博文將較為全面深入地談談軟體質量保證中關於軟體質量的概念,內容等相關問題。關於質量的定義,不同的領域,不同的人,不同的側重點會得出截然不同的結果。因此關於其質量的基礎概念相對而言較為好理解,但是具體如何去定義實際上確是無關緊要的。不過我們在分析軟體質量的時候,不僅要考慮其面向使用者的需求覆蓋率,...
軟體質量保證
一 軟體質量的概念 概括的說 軟體質量就是 軟體與明確地和隱含地定義的要求相一致的程度 具體的說 軟體質量是軟體與明確地敘述的功能和效能需求 文件中明確描述的開發標準以及任何專業開發的軟體產品都應該具有的隱含特性相一致的程度。有3個要點 1 軟體需求是度量軟體質量的基礎,與需求不一致就質量不高。2 ...