CPDA 資料需要清理的問題

2021-09-24 13:45:33 字數 718 閱讀 2497

對各種問題資料進行對應方式的處理,使其得到統

一、可用、易用的資料

資料不完整(即值缺失)——例如人的屬性中缺少婚否、年齡等

資料值不匹配(元資料為人工填入的情況下該問題較多)——例如在婚否的資料標籤中填的是性別男

資料重複——不同**的資料出現重複的情況

資料不合理——獲取的資料與常識不符,例如年齡大於150歲

資料不一致——不同資料來源的同一資料語意衝突

資料無用——目前業務上所不需要使用到的、無價值的資料

一般情況下缺失的值需要人工手動填入

通過其他資料進行推導來補全。例如使用省份證號推算出年齡、出生地、籍貫等。一般是通過平均值、最大值、最小值、概率統計等方式來補全缺失項

資料剔除。如果沒有辦法進行資料完整的補全,為了不影響整體資料的質量,需要將其剔除

資料值不匹配

人工手動進行處理

按主鍵去重。用sql或者excel去除重覆記錄即可

編寫規則,按規則去重

設定強制合法規則範圍。凡是不在此範圍內的,強制設為最大值或者將其剔除

設定警告規則。凡是不在此規則範圍內的,進行警告,然後人工處理

離群值人工處理。使用分箱、聚類、回歸等方式發現離群值

設定強制合法規則範圍。凡是不在此範圍內的,強制設為最大值或者將其剔除

設定警告規則。凡是不在此規則範圍內的,進行警告,然後人工處理

離群值人工處理。使用分箱、聚類、回歸等方式發現離群值

Oracle需要清理的日誌

oracle各類日誌清理 一般oracle軟體目錄約10g左右 1 歸檔檔案 路徑 sql archive log list 由archive destination獲取歸檔路徑 方法 通過rman刪除歸檔檔案 oracle test for lihb rman target rman delete...

需要解決的問題

1 由於沒有元件化,通過新增class或刪除class時,不能重新整理。更換背景的url的class可以通過增刪class實現切換 2 iframe的作用 一 實現當前頁面的css link script路徑不受父類的影響,完全為獨立的 3 js 二維陣列的建立。var typetodata new...

建資料庫需要規避的問題

今天在專案中遇到乙個問題,我有乙個商品表,還有乙個商品擴充套件屬性表,兩張表是一對一關係,因為擴充套件表是新加的,所以就想著不修改原來的產品表,而直接去拓展表 子表 裡增加乙個商品外來鍵。可是後面在做資料庫對映的時候出現了問題,使用對映語句如下 this.hasoptional p p.produc...