對各種問題資料進行對應方式的處理,使其得到統
一、可用、易用的資料
資料不完整(即值缺失)——例如人的屬性中缺少婚否、年齡等
資料值不匹配(元資料為人工填入的情況下該問題較多)——例如在婚否的資料標籤中填的是性別男
資料重複——不同**的資料出現重複的情況
資料不合理——獲取的資料與常識不符,例如年齡大於150歲
資料不一致——不同資料來源的同一資料語意衝突
資料無用——目前業務上所不需要使用到的、無價值的資料
一般情況下缺失的值需要人工手動填入
通過其他資料進行推導來補全。例如使用省份證號推算出年齡、出生地、籍貫等。一般是通過平均值、最大值、最小值、概率統計等方式來補全缺失項
資料剔除。如果沒有辦法進行資料完整的補全,為了不影響整體資料的質量,需要將其剔除
資料值不匹配
人工手動進行處理
按主鍵去重。用sql或者excel去除重覆記錄即可
編寫規則,按規則去重
設定強制合法規則範圍。凡是不在此範圍內的,強制設為最大值或者將其剔除
設定警告規則。凡是不在此規則範圍內的,進行警告,然後人工處理
離群值人工處理。使用分箱、聚類、回歸等方式發現離群值
設定強制合法規則範圍。凡是不在此範圍內的,強制設為最大值或者將其剔除
設定警告規則。凡是不在此規則範圍內的,進行警告,然後人工處理
離群值人工處理。使用分箱、聚類、回歸等方式發現離群值
Oracle需要清理的日誌
oracle各類日誌清理 一般oracle軟體目錄約10g左右 1 歸檔檔案 路徑 sql archive log list 由archive destination獲取歸檔路徑 方法 通過rman刪除歸檔檔案 oracle test for lihb rman target rman delete...
需要解決的問題
1 由於沒有元件化,通過新增class或刪除class時,不能重新整理。更換背景的url的class可以通過增刪class實現切換 2 iframe的作用 一 實現當前頁面的css link script路徑不受父類的影響,完全為獨立的 3 js 二維陣列的建立。var typetodata new...
建資料庫需要規避的問題
今天在專案中遇到乙個問題,我有乙個商品表,還有乙個商品擴充套件屬性表,兩張表是一對一關係,因為擴充套件表是新加的,所以就想著不修改原來的產品表,而直接去拓展表 子表 裡增加乙個商品外來鍵。可是後面在做資料庫對映的時候出現了問題,使用對映語句如下 this.hasoptional p p.produc...