我們目前的資料流程是:資料來源資料 經過挖掘處理轉換等操作生成中間資料,入寬表 ,然後 提取寬表資料 入pdc,資料停留的地方有 資料來源–>中間資料–>寬表–>pdc。
目前我們的監控措施如下:
(1) 資料來源 –>中間資料–>寬表 每個資料流有監控,監控的是每個資料的總量
(2) 每天執行監控 監控 寬表每個資料的變化
(3) 寬表–>pdc有對最終每種資料總量的監控 和 對 資料的簡單校驗(如 太大的資料,太小的資料,資料解密異常等的校驗)
雖然在總概上能夠保證資料的準確性,但是具體到每乙個資料的準確性上需要加強,目前想到的加強措施如下:
(1)針對得到的pdc資料,另起一套**反向匹配校驗 寬表 和 資料來源 資料。
(2)加強code review,確保**邏輯不出問題;加強溝通,確保對資料的處理理解不產生歧義。
(3) 開發一套注重隱私安全的簡單校驗系統,讓每個人能夠核對一下自己的pdc資料,以發現 資料探勘 的不足,並進行優化。
資料準確性和模型準確性
一 遇到了什麼問題 昨天在看 文獻,關於 中國汽車保有量的。文獻中提到了乙個資料 就是國家統計局每年都會 現在已經暫停 調查不同收入等級 八個等級 收入 人口 汽車擁有量的情況。通過這些資料進行簡單的計算就能得到不同收入等級群體的千人保有量情況。這個資料可以估算不同收入與千人保有量之間的函式關係 利...
如何保證日誌的準確性?
1 開發一套web版的日誌系統,只要有網路就可以填寫日誌,無論是否出差在外。2 日誌系統要操作最簡單,員工天天用,操作煩瑣了,就沒有員工願意用了。3 日誌系統能自動提醒沒有按時提交日誌的人員,如果靠qa人員或者pm天天去檢查,容易遺漏,也太累啊。4 日誌系統能自動檢查有錯誤傾向的日誌,定義幾條啟發規...
如何保證日誌的準確性?
1 開發一套web版的日誌系統,只要有網路就可以填寫日誌,無論是否出差在外。2 日誌系統要操作最簡單,員工天天用,操作煩瑣了,就沒有員工願意用了。3 日誌系統能自動提醒沒有按時提交日誌的人員,如果靠qa人員或者pm天天去檢查,容易遺漏,也太累啊。4 日誌系統能自動檢查有錯誤傾向的日誌,定義幾條啟發規...